BIG DATA - DATA SCIENCE

En nuestro Blog hemos hablado de muchas cosas relacionadas con el análisis de datos. Pero ahora puede ser interesante alguna puntualización de origen: Big Data y Data Science son dos ámbitos profesionales de enorme desarrollo y potencial futuro. Cada uno enfrenta momentos distintos de la información, por ejemplo, la gestión o el análisis estadístico. En esta entrada hablaremos de conceptualizaciones útiles para quienes se acercan a estos revolucionarios paradigmas tecnológicos.

¿QUÉ ENTENDEMOS POR BIG DATA?

Cuando los expertos y especialistas en la materia hablan de grandes volúmenes de datos, un fenómeno derivado del crecimiento exponencial de la información, se refieren a Big Data.

En términos, digamos, genéricos, las ciencias de los datos surgen en un contexto gobernado por las nuevas revoluciones industriales, la transformación digital y, en resumen, un momento histórico totalmente marcado por la información entendida como riqueza y vehículo de poder.

Básicamente, ser las generaciones que trasladaron los procesos de socialización a las redes sociales y convirtieron el comercio de bienes y servicios en una realidad digital, ha desencadenado (más bien intensificado de forma colosal) el crecimiento de los datos.

Si en ciencias del comportamiento existen máximas como “nadie puede vivir o existir sin principio de autoridad, por lo tanto, nadie puede vivir sin ideología”, en los nuevos paradigmas digitales hay equivalentes como “ninguna actividad humana existe sin producir un flujo de datos”. Ese crecimiento es el nicho donde aparecen los campos profesionales más prósperos de los últimos años, ligados a la imagen siempre en construcción del dato y lo necesario para extraer valor de éste. Por supuesto, aclaremos que el flujo de información y su importancia para los proyectos empresariales no es una realidad nueva, por ejemplo, en torno al desafío de la predicción o la mejora de la producción. La cuestión es que ahora los datos son, sencillamente, demasiados.

En este sentido, aparecen nuevas herramientas y metodologías (R, Python, etc.) necesarias para afrontar y explotar esta riqueza en bruto. El aumento de información, habitualmente, nos conduce a la clasificación básica de datos estructurados y no estructurados. En los primeros tenemos ejemplos más o menos típicos, como datos volcados en Excel o bases de D relacionales (es decir, con clasificaciones y valores claros). En el segundo ejemplo tendríamos columnas con mucha variedad en los valores y tipo de información.

En Big Data no hay otra finalidad que generar valor a partir de los datos. Los primeros abordajes teóricos giran en torno a las famosas variables Volumen (cantidad de datos), Variedad (estructurados y no estructurados) y Velocidad (la rapidez en el flujo).

Pero, como sabemos, existen otras variables de importancia capital en Big Data: Veracidad (¿Tenemos un dato confiable?), Valor (¿Qué recursos potenciales están codificados en el dato para el proceso de toma de decisiones?) y Variabilidad (¿Hay saltos importantes en los valores de los datos?). Los profesionales también suelen utilizar la conceptualización “Big Data Ecosystem” para referirse al complejo recreado por las herramientas y metodologías enfocadas al Big Data.

DATA SCIENCE

Y, por otra parte, aparece un edificio teórico al que denominamos Data Science. En este campo científico multidisciplinar observamos el encuentro entre matemáticas, Estadística, programación, técnicas comunicativas y otros ámbitos. En el esfuerzo de generar valor desde los datos, asistimos a la más importante alianza de saberes de la época reciente: Big Data y Data Science. En el primer caso, tenemos toda la ingente gestión, en el segundo, tendremos el abordaje matemático estadístico, es donde veríamos la construcción de un valor en forma de conocimiento a partir, por ejemplo, de modelos de Machine Learning.

Gestión y análisis son la llave que guardan las auténticas razones de los grandes profesionales en ciencias de los datos. En otras definiciones, aquellos que buscan incorporar competencias y habilidades en estas prometedoras áreas deben pensar en dos dimensiones: Big Data y Data Science. Y aún habrá mayores razones si tal alianza, el más fiel testimonio tecnológico de estas primeras décadas del siglo XXI, está aplicado o enfocado a las necesidades reales de la producción (en sectores como banca, telecomunicaciones, seguros, sanidad, transportes, ciudades inteligentes, protección de datos, etc.).

Naturalmente, nos referimos a la soñada figura profesional integral que puede liderar todas las fases de un proyecto con datos al interior de la estructura. Pero, por supuesto, existen esfuerzos que únicamente se concentran en Big Data y otros solo en Data Science, en dependencia del punto de partida (es posible hacer análisis con bases que salen de la clasificación como grandes volúmenes de datos).

En definitiva, como en tantos campos científicos, la integralidad es preferible a la parcelación del saber. Contar con herramientas y andadura profesional en Big Data y Data Science, la alianza nombrada anteriormente, es ciertamente la forma de garantizar una carrera profesional prometedora; pero son también necesarios los esfuerzos en proyectos que únicamente se enfocan en la gestión y estructuración de los datos o solo en su análisis estadístico.


 Experto, Especialista y Máster en Big Data y Data Science de la UNED: Matrícula abierta