Big Data: retos y aplicaciones. Como contábamos en la entrada anterior de este Blog, ese es el nombre del CURSO ONLINE introductorio que los directores del Máster en Big Data y Data Science de la UNED organizan en próximos días (27 y 28 de octubre) desde el Centro Asociado de las Islas Baleares. 

Preguntando a su director por la motivación central de esta formación, éste nos explicaba la necesidad de articular acciones que den acceso al mundo del Big Data y el Data Science a personas que están en proceso de aclarado de conceptos y estudio de las posibilidades que abre la transformación digital.

El primer bloque consistirá en una aclaración y profundización de conceptos: la línea lógica entre Big Data y Data Science. Será un espacio muy propicio para desglosar las definiciones que están dando tanto de qué hablar en los últimos tiempos.

Se explicará cómo el Big Data viene generado por los componentes electrónicos que usamos diariamente (tarjetas bancarias, redes sociales, etc.) y todos los datos que producen. Sobre cómo las herramientas del Big Data están orientadas a lograr gestionar bases de datos con millones de registros (totalmente imposibles de procesar son los métodos “tradicionales”). Habrá referencias a unas dimensiones en el universo de datos que obligan a trabajar con lo que se denomina “entornos distribuidos”: la combinación de varias máquinas o bien, por ejemplo, la reserva de un servidor de memoria en Amazon para trabajar conjuntamente con nuestro equipo.

Y, por supuesto, se conectará todo esto con la conceptualización del Data Science, el siguiente paso: si tenemos la información y podemos analizarla (gestión y consultas) ahora debe ser posible extraer información no trivial y útil en la edificación de conclusiones.

Estamos, de nuevo, ante un encuentro entre técnica y ciencia… metodología y saber. Sin dejar de lado la mención (en este curso breve online) a las tres tendencias del Data Science: la Estadística clásica, la inferencia bayesiana y la inteligencia artificial (donde nos encontramos no con una estructura probabilística subyacente  sino con un algoritmo que puede aprender a medida que va procesando los datos, observando el principal ejemplo en la red neuronal que tiende a imitar nuestro funcionamiento nervioso).

Esta primera parte dará pie al fin principal: una iniciación en las herramientas.

Con la correspondiente introducción a Hadoop, Sparklyr, Weka, R y Python. Esta última cuestión bastante interesante, a causa del debate que existe sobre la “competencia” entre R y Python: el primero de mayor difusión frente a la visibilización que ha ido ganando el segundo con la fuerte entrada de los profesionales informáticos en esta área. Es, por supuesto, conocido que Python es un lenguaje de programación estructurado de ámbito general, aunque con ciertas funciones estadísticas. Mientras R es un lenguaje no estructurado y con gran cantidad de funciones estadísticas.

El hecho de que normalmente un profesional informático esté más habituado a trabajar con lenguajes de programación estructurados contrasta con la gran presencia de R en lo referente a grandes volúmenes de datos. Así, tenemos que en campos de estudio de gran amplitud como los contenidos en las ciencias sociales la “estrella” sigue siendo R.

En el segundo bloque del curso online se proporcionará una visión general de las técnicas del Data Science, dividiéndolo en cuatro partes: clasificación, agrupación, reducción de dimensiones y regresión.

A cada una de esas partes se asociará un ejemplo que intentará mostrar el alcance de cada técnica: un árbol de decisión (de gran valor visual), un modelo de regresión logística, un modelo de clasificación y uno de regresión lineal (vista desde los tres enfoques del análisis de datos).  La clase empleará su mayor espacio en la explicación de los resultados.

Uno de los aspectos realmente fascinantes de este tipo de formaciones introductorias es una explicación acerca de los niveles de desarrollo y aplicación (adaptación) que caracterizan el Data Science: un científico de los datos puede hacer, por ejemplo, una clasificación con estadística clásica (como un algoritmo de k medias o un Clúster en dos fases), pero también puede hacer ese algoritmo de clasificación con inferencia bayesiana o inteligencia artificial. Es decir, un espectro verdaderamente grande situaciones son asumibles con estas técnicas y herramientas.

Todos esos alcances serán, cómo no, ampliamente estudiados en el programa de Experto, Especialista o Máster en Big Data y Data Science online de la UNED, cuyo periodo de matriculación está abierto en estos momentos.

Recordemos que este curso otorga 1 crédito ECTS y 2 créditos de libre configuración. Más información en este enlace