BIG DATA: LA CUESTIÓN DE LA CORRELACIÓN Y LA COINCIDENCIA

Hay un aspecto, tanto conceptual como metodológico, indisolublemente ligado al Big Data: la cuestión de la correlación; y una “máxima” añadida: la correlación no significa necesariamente una causalidad concreta. Cuando establecemos relaciones erróneas entre grupos de datos se producen extraños vínculos (en ocasiones irreales) entre fenómenos culturales o económicos.

Esto es una de las cosas abordadas en el trabajo "Spurious Correlations", del analista de Inteligencia Militar y estudiante de Derecho Tyler Vigen. Con un humor algo retorcido, el autor proporciona variedad de ejemplos sobre extrañas y extravagantes asociaciones extraídas de la interacción de los usuarios con su sitio web (tylervigen.com). ¿Existe una correlación entre las películas de Nic Cage y los accidentes de piscinas? ¿Qué pasa con el consumo de carne de vacuno y las personas que son golpeadas por un rayo?

Lo que este investigador ha hecho es crear un software que bucea por grandes conjuntos de datos hasta encontrar correlaciones estadísticas, que están ahí pero podrían no revelar una objetividad real.  Su trabajo, cuya piedra angular, a modo de aviso para navegantes en el océano de los datos, es "correlation does not equal causation", representa cierta crítica estrafalaria al creciente esfuerzo por entender las enormes cantidades de información que generamos, uniendo a ese cometido la más “tradicional” teoría de la conspiración.

Pero el tema de fondo, a modo de moraleja, encontramos la exploración de posibles correlaciones entre los universos de datos (como uno de los matices centrales del Big Data) que debería estar unida a un análisis del contexto. La recolección de datos en cada proceso productivo o actividad económica debe pasar filtros de origen.

Por ejemplo: la cantidad de aviones de pasajeros que aterrizan en un país o zona del mundo durante el verano en relación al número de personas que hacen uso de las redes de transporte terrestre regionales en ese mismo periodo de tiempo, para intentar estimar (correlacionando los conjuntos de datos) el aumento en el consumo de alimentos en determinados lugares de destino o cómo cambiará la población o los consumos culturales debido a todas esas personas que aterrizaron y luego se desplazaron en un tren regional hasta sitios más apartados, etc. Tal ejercicio sería útil cuando, por ejemplo,  una parte de los visitantes comienza a variar los destinos habituales por distintas razones.

Cuánta gente llega en avión y posteriormente podría tomar un tren pequeño, y la vinculación de esos datos con los cambios en el consumo de servicios en determinados lugares; que se matizarían todavía más, por ejemplo, al tener en cuenta el origen de los visitantes. Un turista mexicano no desayuna lo mismo que uno alemán, como un turista japonés posiblemente impacte en el lugar de forma distinta a un norteamericano o un europeo.

Naturalmente, al empezar a investigar las fuentes y los datos debe extrapolarse el análisis a cuestiones conexas pero consustanciales: información sobre factores ambientales y económicos en los lugares de destino, sobre seguridad, etc. Entones, si el contexto no tiene suficiente peso, podría aparecer una correlación numérica entre la presencia de medusas en las playas de esos parajes apartados y la nacionalidad mayoritaria de los turistas. O entre la captura de los pescadores y el peso en el mercado de la compañía en que volaron los turistas alemanes, por poner ejemplos algo extravagantes.

Es conocido que las bases de datos escalables descubren patrones numéricos y destacan variables operacionales con correlación. De esta forma las técnicas en Big Data / Data Science ayudan a imponer claridad cuando nos encontramos ante realidades operativas en extremo enrevesadas. Lo que influye de manera notable en la productividad, gracias a un manejo eficiente de la información.

Sin embargo, en ocasiones, la vinculación entre universos de datos se basa demasiado en el patrón numérico, pero sugiriendo una interpretación empírica no muy sólida: imaginemos que encontramos una sospechosa similitud entre la edad promedio de los pescadores asturianos frente a la edad promedio de los turistas rusos que quisieron explorar las parroquias cercanas a la costa cantábrica.

En resumen, una cantidad considerable de series numéricas podrían revelar una coincidencia insospechada. Aquí es donde cobra importancia la calidad del profesional que gestiona toda esa información: el “buen” científico de datos y especialista en grandes volúmenes de información debe tener herramientas para una de las diferenciaciones más importantes en esta área de trabajo: entre la correlación relevante o representativa de una realidad y la coincidencia numérica, lógica pero no significativa.

También es conocido que el acelerado desarrollo del Big Data está apoyándose en el denominado “aprendizaje de máquinas”, con objeto de incorporar pautas que ayuden a resaltar la significación real entre los datos. Pero, en realidad, estamos ante demandas en los horizontes de la inteligencia artificial.

El razonamiento central, de cara a la máquina, es proporcionarle un escenario a través del cual filtre las correlaciones halladas, bajo cierto “entendimiento” de la situación. También denominado “small data”, el dibujo de un entorno mínimo para sospechar la significación. Por ejemplo, al cruzar datos de geolocalización y hábitos de búsqueda podría inferirse cierta “ruta” lógica en los consumos de un bloque de población.

De forma, pues, que al hablar de Big Data y Data Science es imperativo referirse a todos aquellos aspectos que preparan al profesional para dar lecturas correctas (la causalidad que debe existir más allá de la correlación), de las que dependen la dirección de las estrategias empresariales, la investigación científica o las políticas públicas.

Esto, por supuesto, también depende de la orientación específica de ese profesional, pero sobre todo de lo versátil, flexible y calidad de su formación, todas preocupaciones centrales de este programa de Experto, Especialista y Máster en Big Data y Data Science online de la UNED.  

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

0
0
0
s2smodern
powered by social2s

En el Blog

ContactAR

Información y matriculación

Facultad de
Ciencias Económicas y Empresariales

  • Paseo Senda del Rey, 11. 28040 Madrid.
  • Email de información:
    Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

Este sitio usa cookies

Si sigues navegando entendemos que aceptas nuestra política de cookies Saber más

Acepto

Política de cookies

La Universidad Nacional de Educación a Distancia y el Máster de Big Data y Data Science informa acerca del uso de las cookies en sus páginas web para mejorar los servicios que se prestan a través de la misma.

Las cookies son archivos que se pueden descargar en su equipo a través de las páginas web. Son herramientas que tienen un papel esencial para la prestación de numerosos servicios de la sociedad de la información. Entre otros, permiten a una página web almacenar y recuperar información sobre los hábitos de navegación de un usuario o de su equipo y, dependiendo de la información obtenida, se pueden utilizar para reconocer al usuario y mejorar el servicio ofrecido.

Aceptación de la Política de cookies

La UNED asume que usted acepta el uso de cookies. No obstante, muestra información sobre su Política de cookies en la parte inferior de cualquier página del portal con cada inicio de sesión con el objeto de que usted sea consciente.

Ante esta información es posible llevar a cabo las siguientes acciones:

  • Aceptar cookies. Se trata de una aceptación tácita, siendo una política aceptada por el hecho de usar el portal web de la UNED.
  • No aceptar las cookies. Abandonar la navegación en el portal web de la UNED.
  • Modificar su configuración de su navegador. Podrá obtener más información sobre qué son las cookies, conocer la Política de cookies de la UNED y modificar la configuración de su navegador.

Otra información de interés

Tipos de cookies

Según la entidad que gestione el dominio desde donde se envían las cookies y trate los datos que se obtengan, se pueden distinguir dos tipos: cookies propias y cookies de terceros.

Existe también una segunda clasificación según el plazo de tiempo que permanecen almacenadas en el navegador del cliente pudiendo tratarse de cookies de sesión o cookies persistentes.

Por último, existe otra clasificación con cinco tipos de cookies según la finalidad para la que se traten los datos obtenidos: cookies técnicas, cookies de personalización, cookies de análisis, cookies publicitarias y cookies de publicidad comportamental.

Para más información a este respecto puede consultar la Guía sobre el uso de las cookies de la Agencia Española de Protección de Datos

Cookies utilizadas en la web de la UNED

A continuación se identifican las cookies que están siendo utilizadas en este portal así como su tipología y función:

  • Google Analytics. En su navegador podrá observar esta cookie denominada _ga. Según la tipología anterior se trata de cookies de terceros, de sesión y de análisis. Los datos que se recopilan, procesan y almacenan en la cuenta de la UNED de Google Analytics, están protegidos y se conservan de manera confidencial. Los datos de Google Analytics se utilizan únicamente para fines estadísticos, siendo el único dato considerado como de carácter personal tratado en este servicio la dirección IP.

Puede encontrar más información al respecto e inhabilitar el uso de estas cookies www.google.es/intl/es/analytics/privacyoverview.html

A través de la analítica web se obtiene información relativa al número de usuarios que acceden a la web, el número de páginas vistas, la frecuencia y repetición de las visitas, su duración, el navegador utilizado, el operador que presta el servicio, el idioma, el terminal que utiliza, o la ciudad a la que está asignada su dirección IP. Información que posibilita un mejor servicio de este portal.

  • UsuarioUNEDv2. Cookie de sesión (con un periodo de validez de 12 horas), propia y de tipo técnico, cookie firmada digitalmente únicamente es accesible por otros sistemas mediante SSL. Permite la navegación por el portal de forma personalizada, además de permitir mediante una única validación del usuario en el portal, acceder a otros sistemas y/o servicios de forma transparente, sin necesidad de tener que volver a identificarse
  • ASP.NET_SessionId. Cookie de tipo técnico, propia y de sesión. Cookie generada por el servidor. Esta cookie permite almacenar un identificador único por sesión a través del que es posible vincular datos necesarios para posibilitar la navegación en curso.
  • SSO_SesionID. Cookie de tipo técnico, propia y de sesión. Empleada por el portal corporativo para gestion de privilegios del usuario.
  • JSESSIONID. Cookie de tipo técnico, propia y de sesión. Empleada por componente java del servidor para posibilitar la navegación en curso.

Cómo modificar la configuración de las cookies

Usted puede restringir, bloquear o borrar las cookies de la Universidad Nacional de Educación a Distancia o cualquier otra página web, utilizando su navegador. En cada navegador la operativa es diferente, la función de ‘Ayuda” le mostrará cómo hacerlo.

Ir al principio