Si hay un lugar donde Big Data y Data Science están en primera línea de la investigación científica es la física de partículas

Si hay un lugar donde Big Data y Data Science están en primera línea de la investigación científica es la física de partículas. Complejos como el CERN, donde las ideas preconcebidas se derrumban, dependen de la analítica y ciencia de datos para extraer conocimiento de sus enormes cúmulos de información. La institución es un ejemplo del valor multidisciplinar y la innovación en las nuevas culturas organizacionales, con el dato como centro de todo. 

Cuando se habla de Ciencia, con mayúscula, entre las varias imágenes que acuden a la mente tenemos la Física de partículas y su relación con nuestro conocimiento sobre la materialidad y la Historia del Universo. Para incursionar en este campo, que requiere asomarse al cosmos de lo extraordinariamente pequeño, se han construido complejos que figuran entre las mayores obras de ingeniería hechas por el hombre. Hablamos, claro, de los aceleradores de partículas, que permiten experimentos donde colisionan partículas cargadas con alta energía. El instrumental necesario para estos estudios tiene uno de sus nodos fuertes en el Large Hadron Collider – LHC, ubicado en el CERN.

El LHC desencadena alrededor de 600 millones de colisiones por segundo, generando volúmenes de datos a una escala auténticamente espacial. Sin la intervención del Big Data, sencillamente, no sería posible el procesado y análisis de todos esos datos; por ejemplo, permite la detenida medición de la naturaleza de las partículas, con el fin de buscar otras hasta ese momento desconocidas (uno de los episodios más difundidos fueron los estudios experimentales Atlas y CMS, que dieron con el bosón de Higgs durante el 2012). Para lograr esto, una medición de esas características, donde intervienen tantas variables, hacen falta sistemas formados por algoritmos matemáticos capaces de aprender al avanzar la tarea en el tiempo, es lo que habitualmente denominamos como Machine Learning.

El Machine Learning es, naturalmente, una “asignatura” obligada en cualquier programa superior en Big Data y Data Science que se preste de serlo, donde se engloban estudios sobre árboles de decisión o redes neuronales artificiales, entre otros. 

Entre tanto, Atlas y CMS no dejan de dar sorpresas. En agosto de este 2020 sus equipos científicos anunciaron que, en ciertas condiciones, el bosón de Higgs se desintegraba durante la colisión en dos muones, una segunda generación de partículas según el modelo estándar. 

EL CERN, DONDE LOS DOGMAS SE DERRUMBAN

La cuestión de los datos ha ido introduciéndose poco a poco en el lenguaje cotidiano a partir de su importancia en el tráfico Online, las comunicaciones, la potencia de los dispositivos, etc. Tal vez quedan ya pocos procesos industriales donde los datos no adquieren cada vez mayor relevancia. En general, podría afirmarse que Big Data y Data Science imponen el modelo interdisciplinar en todos los procesos productivos. Está aceptado que la empresa o estructura productiva inteligente, aquella que emplea sus datos a profundidad, se apoya en procesos donde la transferencia de conocimiento, la investigación continua y los puentes con la ciencia hacen parte de la cultura organizacional.    

Paralelamente, las empresas científicas no son ajenas a esas tendencias (aunque deba subrayarse que lo clásicamente entendido como investigación está en territorio de los académicos). En el Gran Colisionador de Hadrones, entre la frontera de Francia y Suiza, se contempló desde el diseño una enorme capacidad para almacenar información e implementar modelos de procesado, con una estructura base de 65 mil procesadores. La cuestión es que dicha potencia no resulta suficiente para analizar el extraordinario volumen de datos que puede generar sus experimentos.

Una de las estimaciones existentes calcula que cada una de esas 600 millones de colisiones por segundo produce un petabyte. Tal cantidad de información compromete cualquier intento de almacenamiento, de forma que algunos de los protocolos del CERN desestiman una gran cantidad de los datos. En el análisis de la información considerada relevante se ven involucrados, aproximadamente, 150 centros de datos alrededor del mundo.

Por la época en que el CERN confirmó el hallazgo de una partícula consistente con el bosón de Higgs y se aproximó a su parcial confirmación, en el 2012 y 2013, la organización generaba unos 30 petabytes de nuevos datos al año y almacenaba cerca de 250 en sus centros de cómputo. Por entonces las tareas de análisis ya significaban unos 2 millones de operaciones cada día.

Fue así como la Organización Europea para la Investigación Nuclear pasó a ser conocida, además, como una de las pioneras en Big Data y Data Science. Manuel Martín, destacado data scientist de la organización afirmaba hace unos años: El CERN lleva haciendo Big Data desde hace 20 años... el problema es que no sabíamos que se llamaba así. 

Sin embargo, lo destacable del mayúsculo esfuerzo representado en esta institución de investigación, aparte de la teorización en sí que motiva los estudios, es el esquema de trabajo multidisciplinar con un gran espacio para la analítica de datos. Nos referimos a necesidades en torno a extracciones de datos escalables y predictivos, donde es necesario apoyarse en Machine Learning.

Básicamente, el CERN depende del Big Data y el Data Science para objetivar una imagen cercana a nuestros razonamientos habituales a partir de su insondable océano de datos. Claro, la institución no es como una corporación o una dependencia de la Administración al uso, allí vemos la persecución en primera línea de conocimientos en el límite. De ahí que la presencia de talento joven y la continua discusión e implementación de nuevas perspectivas, por ejemplo, para entender lo que codifican los datos, hagan parte de su cultura organizacional.

Si hay un sitio en el mundo donde los dogmas se derrumban, ese es el CERN. Pero, a la vez, si existe un perfil profesional ejecutor de esta continúa revolución tecnológica que puede superar todo lo preconcebido, incluso en terrenos de élite científica como la Física de partículas, ese es el Experto o Especialista en Big Data y Data Science.


Experto, Especialista y Máster en Big Data y Data Science de la UNED: MATRÍCULA ABIERTA

Máster en Big Data y Data Science de la UNED: MATRÍCULA ABIERTA