BIG DATA: LA CUESTIÓN DE LA CORRELACIÓN Y LA COINCIDENCIA
- BLOG DEL MÁSTER EN BIG DATA Y DATA SCIENCE ONLINE DE LA UNED
- Visto: 5034
Hay un aspecto, tanto conceptual como metodológico, indisolublemente ligado al Big Data: la cuestión de la correlación; y una “máxima” añadida: la correlación no significa necesariamente una causalidad concreta. Cuando establecemos relaciones erróneas entre grupos de datos se producen extraños vínculos (en ocasiones irreales) entre fenómenos culturales o económicos.
Esto es una de las cosas abordadas en el trabajo "Spurious Correlations", del analista de Inteligencia Militar y estudiante de Derecho Tyler Vigen. Con un humor algo retorcido, el autor proporciona variedad de ejemplos sobre extrañas y extravagantes asociaciones extraídas de la interacción de los usuarios con su sitio web (tylervigen.com). ¿Existe una correlación entre las películas de Nic Cage y los accidentes de piscinas? ¿Qué pasa con el consumo de carne de vacuno y las personas que son golpeadas por un rayo?
Lo que este investigador ha hecho es crear un software que bucea por grandes conjuntos de datos hasta encontrar correlaciones estadísticas, que están ahí pero podrían no revelar una objetividad real. Su trabajo, cuya piedra angular, a modo de aviso para navegantes en el océano de los datos, es "correlation does not equal causation", representa cierta crítica estrafalaria al creciente esfuerzo por entender las enormes cantidades de información que generamos, uniendo a ese cometido la más “tradicional” teoría de la conspiración.
Pero el tema de fondo, a modo de moraleja, encontramos la exploración de posibles correlaciones entre los universos de datos (como uno de los matices centrales del Big Data) que debería estar unida a un análisis del contexto. La recolección de datos en cada proceso productivo o actividad económica debe pasar filtros de origen.
Por ejemplo: la cantidad de aviones de pasajeros que aterrizan en un país o zona del mundo durante el verano en relación al número de personas que hacen uso de las redes de transporte terrestre regionales en ese mismo periodo de tiempo, para intentar estimar (correlacionando los conjuntos de datos) el aumento en el consumo de alimentos en determinados lugares de destino o cómo cambiará la población o los consumos culturales debido a todas esas personas que aterrizaron y luego se desplazaron en un tren regional hasta sitios más apartados, etc. Tal ejercicio sería útil cuando, por ejemplo, una parte de los visitantes comienza a variar los destinos habituales por distintas razones.
Cuánta gente llega en avión y posteriormente podría tomar un tren pequeño, y la vinculación de esos datos con los cambios en el consumo de servicios en determinados lugares; que se matizarían todavía más, por ejemplo, al tener en cuenta el origen de los visitantes. Un turista mexicano no desayuna lo mismo que uno alemán, como un turista japonés posiblemente impacte en el lugar de forma distinta a un norteamericano o un europeo.
Naturalmente, al empezar a investigar las fuentes y los datos debe extrapolarse el análisis a cuestiones conexas pero consustanciales: información sobre factores ambientales y económicos en los lugares de destino, sobre seguridad, etc. Entones, si el contexto no tiene suficiente peso, podría aparecer una correlación numérica entre la presencia de medusas en las playas de esos parajes apartados y la nacionalidad mayoritaria de los turistas. O entre la captura de los pescadores y el peso en el mercado de la compañía en que volaron los turistas alemanes, por poner ejemplos algo extravagantes.
Es conocido que las bases de datos escalables descubren patrones numéricos y destacan variables operacionales con correlación. De esta forma las técnicas en Big Data / Data Science ayudan a imponer claridad cuando nos encontramos ante realidades operativas en extremo enrevesadas. Lo que influye de manera notable en la productividad, gracias a un manejo eficiente de la información.
Sin embargo, en ocasiones, la vinculación entre universos de datos se basa demasiado en el patrón numérico, pero sugiriendo una interpretación empírica no muy sólida: imaginemos que encontramos una sospechosa similitud entre la edad promedio de los pescadores asturianos frente a la edad promedio de los turistas rusos que quisieron explorar las parroquias cercanas a la costa cantábrica.
En resumen, una cantidad considerable de series numéricas podrían revelar una coincidencia insospechada. Aquí es donde cobra importancia la calidad del profesional que gestiona toda esa información: el “buen” científico de datos y especialista en grandes volúmenes de información debe tener herramientas para una de las diferenciaciones más importantes en esta área de trabajo: entre la correlación relevante o representativa de una realidad y la coincidencia numérica, lógica pero no significativa.
También es conocido que el acelerado desarrollo del Big Data está apoyándose en el denominado “aprendizaje de máquinas”, con objeto de incorporar pautas que ayuden a resaltar la significación real entre los datos. Pero, en realidad, estamos ante demandas en los horizontes de la inteligencia artificial.
El razonamiento central, de cara a la máquina, es proporcionarle un escenario a través del cual filtre las correlaciones halladas, bajo cierto “entendimiento” de la situación. También denominado “small data”, el dibujo de un entorno mínimo para sospechar la significación. Por ejemplo, al cruzar datos de geolocalización y hábitos de búsqueda podría inferirse cierta “ruta” lógica en los consumos de un bloque de población.
De forma, pues, que al hablar de Big Data y Data Science es imperativo referirse a todos aquellos aspectos que preparan al profesional para dar lecturas correctas (la causalidad que debe existir más allá de la correlación), de las que dependen la dirección de las estrategias empresariales, la investigación científica o las políticas públicas.
Esto, por supuesto, también depende de la orientación específica de ese profesional, pero sobre todo de lo versátil, flexible y calidad de su formación, todas preocupaciones centrales de este programa de Experto, Especialista y Máster en Big Data y Data Science online de la UNED.