Vanguardia de la ciencia de datos

¿Qué significa formarse profesionalmente enfocado en el análisis de datos? La respuesta a esta pregunta transita por el profundo debate que existe en el mundo académico y la cultura corporativa acerca de la definición y utilidad de la ciencia de datos. Luego de varios años de profundizar en esta área, en la Facultad de Ciencias Económicas y Empresariales de la UNED, nos inclinamos por aquella conceptualización que encuentra a la ciencia de datos en esa área integral y multidisciplinar formada por las matemáticas y la Estadística, el conocimiento aplicado más las competencias y habilidades en el uso de herramientas y metodologías para el procesamiento de la información. ¿Cómo estar a la vanguardia de la ciencia de los datos?

Es meridianamente claro que trabajar con datos implica destreza en aquellas herramientas que permitan extraer, ordenar y procesar de manera eficiente. Pero, muy importante, lo anterior no quiere decir que el atributo principal del científico de datos tenga que ver con Informática y programación. Naturalmente, es necesario el dominio de alguno de los lenguajes de programación utilizados habitualmente en el análisis de datos (ahí tenemos la extraordinaria potencia y versatilidad de R), con el fin de estructurar aquellos algoritmos que resuelven un problema o un interrogante concreto enfocado a las matrices de información.
Sin embargo, no es en la programación dónde se verá la auténtica solidez formativa del científico de datos. Los rasgos que revelan un aparato de ciencia en ejecución aparecen justo después de extraer los datos. Es entonces cuando las bases matemáticas y estadísticas de este cuadro profesional entran en acción, interrogando e interpretando tales datos de la forma adecuada.

PROFESIONAL ENFOCADO EN EL ANÁLISIS DE DATOS

¿Y cuál es la forma adecuada de estudiar los datos? Cómo argumentamos en una entrada anterior de este blog, aquella que convierte el conocimiento extraído de la información en ventajas competitivas. Es decir, una toma de decisiones basada en datos que fueron objeto de estudio matemático y estadístico se traduce en una conducción científica de la estructura productiva, lo contrario a una toma de decisiones en clave emocional o subjetiva.

¿Cómo es posible lo anterior? Precisamente, gracias al segundo atributo que, desde la experiencia de la Facultad de Ciencias Económicas y Empresariales de la UNED, estructura al científico de datos: La generación de un conocimiento aplicado. En efecto, los conocimientos matemáticos y estadísticos, el lenguaje, etc. resultan trascendentales. Pero si, además, la formación de este científico de datos le permitió focalizarse en los sectores estratégicos de la producción (finanzas, transportes, telecomunicaciones, publicidad, sanidad, la investigación) nos encontraremos con un cuadro profesional impresionantemente demandado por cualquier compañía.

La razón de lo anterior estriba, en parte, en que el conocimiento de un sector específico facultará al científico de datos para construir unos interrogantes (dirigidos a los datos) muy encuadrados en el contexto. De lo que resultará una política corporativa y planeación estratégica con mayores posibilidades de éxito que las conseguidas con un conocimiento aplicado más generalista. Es claro que las necesidades de cada sector productivo varían sensiblemente (además en relación al tiempo, el espacio geográfico etc.).

Los actuales estudios en Big Data y Data Science se diferencian entre sí, simple y llanamente, por la facilidad que tenga el estudiante en el momento de focalizarse. Sumando a lo anterior el espacio, mayor o menor, que las matemáticas y la estadística ocupan en los contenidos. En este sentido, es importante la claridad sobre lo siguiente: Un curso en Big Data e incluso una formación superior en esta área, con mucho espacio para la programación y menos para las matemáticas y estadística, no convierte al estudiante en científico de datos.

Por supuesto, la formulación contraria también sería correcta: un profesional con profundos conocimientos matemáticos y estadísticos, pero sin dominio de lenguaje R, por ejemplo, no alcanzaría todavía la condición de científico de datos.

Al hablar de ciencia de datos, nos estaríamos refiriendo a una racionalidad científica que involucra un correcto planteamiento del problema de análisis. Cómo sabemos, la calidad y profundidad del interrogante es una de las piedras angulares del pensamiento científico. Esto se instrumentaliza, entre otras formas, en la implementación de soluciones (sería el caso de un algoritmo en Aprendizaje Supervisado) simples y elegantes que despejan de forma correcta y clara las preguntas existentes.

En conclusión, desde nuestra experiencia, la cuestión de conseguir un profesional a la vanguardia de la ciencia de los datos está en la integración antes nombrada: matemáticas, Estadística, lenguaje R (entre otros, por supuesto) y aplicación práctica en el mundo real. Sin lugar a dudas, no se trata de saberes que puedan conseguirse en cursos breves ni en programas cuyos contenidos no estén correctamente estructurados.

Claro, todo comienza por un correcto flujo de trabajo. Importar datos de muy diverso origen a R, para luego homogenizar formatos buscando una suerte de “semántica universal”, filtrar, etc. nos permitirá arribar a una exploración mediante las típicas operaciones estadísticas. Entran en juego habilidades fundamentales como conseguir la mejor visualización. Pero más tarde tendremos que interpretar y comunicar los hallazgos permitidos por las modelizaciones. Y aquí es donde la focalización marcará una de las grandes diferencias.


Experto, Especialista y Máster en Big Data y Data Science de la UNED: Reserva de plaza - Convocatoria 2023