Ciencia de Datos: La gran cuestión de la interpretación

16 Octubre 2023

La ciencia, como todos los grandes constructos psicosociales y simbólicos humanos, tiene su orden de problemas angulares. Uno de ellos es la gran cuestión de la interpretación de los datos y la predicción. Quizá en la ciencia de datos vemos la objetivación más clara de lo anterior en mucho tiempo. Aunque con un añadido que lo cambia todo: cuando hablamos, por ejemplo, de Big Data y Data Science enfocados al análisis de datos, nos dirigimos a sistemas de información que se convierten en movilización de la estructura, en acción casi inmediata.

Así es, en ciencia de datos los gráficos, las tablas, etc. son típicas, pero resultan casi inmediatamente aplicables a situaciones concretas.

Síntesis de datos = mayor eficiencia en los resultados

Claro, no perdamos de vista que las técnicas utilizadas en ciencia de datos ensamblan metodologías arribadas desde la Estadística y los sistemas de computación. Empezando con la clasificación, con la finalidad de ordenar los datos en grupos, conjuntos, categorías, etc. Cuando tenemos un orden y criterios de identificación, podemos implementar algoritmos de decisión que nos ayudarán a categorizar más profundamente y procesar con mayor velocidad.

Casos típicos de lo anterior es el ordenamiento de un catálogo de productos, por ejemplo, de más a menos vendidos, de más a menos referenciados o comentados. También es una forma de analizar el comportamiento digital mediante los relatos vertidos en redes sociales, donde las expresiones tienen asignadas calificaciones numéricas o negativas frente a positivas. Más allá tendríamos los estudios de riesgo en sectores sensibles como las finanzas, el mercado inmobiliario o los seguros.

¿Y qué viene después?

Después llega la regresión, donde vemos una de las más importantes fortalezas de la ciencia de datos.

El análisis de la regresión es un proceso estadístico para entender cómo una variable depende de otra variable. Por ejemplo, si se requiere entender cómo la edad de una persona afecta a su salario, se puede usar la regresión para encontrar una relación entre las dos variables. En términos simples, la regresión es una línea que se traza en un gráfico que muestra la relación entre dos variables. La línea se ajusta a los puntos de datos para mostrar la tendencia general entre las dos variables. Por ejemplo, si la edad y el salario están relacionados, la línea de regresión mostrará cómo el salario aumenta a medida que la edad de una persona aumenta. La regresión es una herramienta valiosa porque permite a los científicos de datos entender cómo dos variables están relacionadas y predecir valores futuros. Por ejemplo, si tienes la edad de una persona, puedes usar la línea de regresión para predecir su salario futuro.

Igualmente, tendríamos casos en acontecimientos sociales en un espacio determinado (un hecho criminal, un incendio, una inundación, un accidente, etc.), el número de afectados y el número o características de las estructuras de respuesta, como fuerzas policiales, bomberos, personal sanitario, etc. Dos conjuntos de datos relacionados, pero no de forma clara. También podríamos nombrar escenarios como clientes satisfechos durante una ventana de tiempo en contraste con número de trabajadores en activo en ese mismo espacio y tiempo. O transmisión de enfermedades durante un lapso temporal, temperaturas o comportamiento del aire.

Luego nos encontramos con conceptualizaciones fundamentales como clústeres. Aquí tenemos otro de esos momentos donde la ciencia de datos muestra sus fortalezas: cuando logramos hacer agrupaciones de datos donde las relaciones están visibilizadas podríamos allanar el camino para encontrar anomalías, fenómenos inesperados, pautas o patrones… Y esto es uno de los cometidos fundamentales de la ciencia de datos. En los clústeres la agrupación se genera por relaciones probables.

Esto nos permite, entre otros casos, identificar patrones en el comportamiento digital, en términos de consumo, tráfico, creación de contenidos, etc. Para nombrar un caso interesante, existen organizaciones utilizando clústeres para detectar flujos de información en la red donde se extienden noticias falsas, uno de los grandes problemas de la actualidad por sus implicaciones en la conducta política de los ciudadanos.

Las nuevas economías demandan Big Data y Data Science para navegar por grandísimos volúmenes de información y lograr la edificación de modelos que generan variables nuevas, a la vez que se acercan a uno de los fines del discurso científico: la predicción. Entre los aspectos que hacen al Data Science y el Big Data tan enigmático entre los paradigmas tecnológicos está la posibilidad de utilizar datos de una diversidad que hace algunos años habría significado una barrera enorme.

Todo lo anterior son rasgos vertebradores del programa modular (Experto, Especialista y Máster) en Big Data y Data Science de la UNED.