Hacer ciencia de datos

Los procesos empresariales, incluyendo las varias dificultades que suelen presentarse, son habitualmente interpretables como un nudo problémico abordable desde la ciencia de datos. Los expertos y profesionales de esta área del conocimiento, por otra parte, necesitan importantes habilidades comunicativas para comprender las necesidades que se ponen en juego entre las partes de un proceso productivo.

Pero, posterior a lo anterior, el científico de datos implementa unas metodologías mediante las cuales se obtienen, depuran, exploran y modelan las matrices de datos, luego de lo cual arribamos a la gran cuestión de interpretación de los resultados.

Partiendo de la obtención de los datos, diremos que éstos pueden ya existir de antemano, podrían encontrarse presentes, pero todavía sin claridad suficiente. Lo cierto es que un científico de datos puede obtener su información primaria prácticamente de cualquier parte: bases de datos externas o internas, del software que utiliza la empresa, registros desde las redes sociales o simplemente datos en manos de terceros.

Claro, lo anterior implica un esfuerzo importante en la depuración de esos mismos datos. Una vez obtenidos, es necesario un proceso de estandarización o normalización, por ejemplo, relacionado con el formato. Esta parte también comprende la búsqueda y gestión de aquellas partes de la información que parecen no estar o faltar.

Ahora bien, en esta fase veremos en juego las competencias y habilidades de un profesional bien formado en análisis de datos. Es decir, en la fase de depuración entra en acción, precisamente, aquel cuadro productivo bien entrenado en las herramientas adecuadas. En efecto, la depuración de los datos involucra procesos de gran delicadeza como la modificación de los valores o la forma como estos están expresados, la infinita cadena de errores (ortotipográficos o espaciados adicionales son casos típicos) y la corrección de incongruencias matemáticas o estadísticas.

Pero sin en la depuración ya muestra su valía un profesional en Big Data y Data Science 100% enfocado al análisis de datos, durante la exploración de los datos las cosas se ponen todavía más serias. Ya que las primeras exploraciones necesitarán generar la base de las estrategias más avanzadas que se aplicarán sobre todo este enorme cúmulo de información, así como las primeras ideas sobre su modelado.

Durante esta fase, un científico de datos emprenderá sus exploraciones y ejercicios comprensivos a través de estadísticas descriptivas y múltiples metodologías de visualización. Como hemos estudiado en anteriores entradas de este blog del Máster en Big Data y data Science de la UNED, el cometido de la interpretación será el que potencialmente podrá visibilizar patrones interesantes, que darán vía a otros todavía más profundos al interior de los datos.

Naturalmente, la modelización no es una cuestión menor. Aquí tendremos software y algoritmos de machine learning que nos permitirán sumergirnos a gran profundidad, generando distintos órdenes de predicciones sobre la causalidad generada por X acción. Por supuesto, no olvidemos que las técnicas que tenemos a nuestro alcance en machine learning (asociación, clasificación y agrupación), se aplican en primera instancia a matrices de datos de entrenamiento. En otras palabras, una estrategia de modelización necesita estar suficientemente entrenada con datos de prueba.

¿Y qué hay de la interpretación? Todo lo anterior, como hemos argumentado en entradas anteriores de este blog en Big Data y data Science, no tendría sentido si no existiera un apartado dedicado a la interpretación de los resultados que estamos observando. El análisis de datos debe convertirse en un tipo de información generador de acciones que concluyen en ventajas competitivas.

Para esto, el científico de datos recurrirá a todo el universo de graficaciones que permiten la ilustración sobre la evolución de un fenómeno y su tendencia en el futuro. Toda la cultura que se está generando en estos momentos alrededor de las economías enfocadas a los datos y la digitalización nos conduce hasta este momento: información sintética, precisa y extremadamente racional creada para maximizar el trabajo y los resultados.


Experto, Especialista y Máster en Big Data y Data Science de la UNED (séptima edición):

CONVOCATORIA 2024 - MATRÍCULA ABIERTA