Contenido

Módulos

Cada módulo consta de 5 créditos, a excepción del Trabajo Fin de Máster que tiene 10 créditos.

MÓDULO 1: Data Science y Big Data. La Nueva Realidad

En este módulo se establecerán las bases fundamentales para el análisis de datos mediante herramientas y técnicas clave. Comenzarás explorando modelos como SEMMA y CRISP-DM, fundamentales para estructurar proyectos de minería de datos, como cuando se busca predecir el abandono de clientes en una empresa de telecomunicaciones utilizando datos históricos. En este módulo, trabajarás con herramientas de Big Data como Spark y Databricks, esenciales para procesar grandes volúmenes de información, por ejemplo, analizando registros de clientes para identificar patrones de consumo.

También aprenderás a programar en lenguajes como R, Python y SQL, aplicando buenas prácticas como los test unitarios para garantizar que el código es robusto y eficiente. En el proceso de preprocesado de la muestra, aplicarás técnicas como la detección y tratamiento de outliers, que te permitirán mejorar la calidad de datos como, por ejemplo, los registros de transacciones financieras al eliminar valores extremos que podrían afectar tus análisis. Además, realizarás la imputación de valores nulos, normalización y balanceo de la muestra para asegurarte de que los datos sean limpios y representativos, lo que es clave para una modelización precisa en proyectos de machine learning.

Finalmente, establecerás unas bases en SCRUM, Agile y Git, lo que te ayudará a gestionar proyectos de datos de manera ágil y eficiente, asegurando que el trabajo en equipo fluya de manera efectiva, especialmente cuando se trabajan con grandes volúmenes de datos y código colaborativo.

MÓDULO 2: Herramientas Big Data

Este módulo te proporcionará las claves para trabajar con grandes volúmenes de datos aplicados a Machine Learning, incluyendo computación distribuida y estrategias de escalabilidad, lo que te permitirá gestionar eficientemente datos a gran escala. Por ejemplo, al trabajar con datos de clientes en tiempo real, como transacciones bancarias, aprenderás a usar Spark para procesar y aplicar modelos predictivos sobre estos datos utilizando técnicas de escalabilidad horizontal.

Además, aprenderás a manipular y visualizar datos usando tidyverse en R y pandas en Python. Un caso práctico podría ser analizar datos de ventas de productos de una tienda en línea, donde usarías pandas o dyplr para filtrar y agrupar los datos por categorías de productos y fechas, y luego generar visualizaciones con matplotlib o ggplot2 para identificar patrones de compra a lo largo del tiempo, como picos de demanda por estacionalidad.

Te adentrarás también en la arquitectura de un entorno Big Data, aprendiendo a gestionar la ingesta de datos, asegurando que los datos estén bien estructurados antes de ser procesados y analizados, lo cual es esencial cuando manejas flujos de datos masivos, como los registros de sensores IoT o logs de servidores. Este enfoque se complementa con la industrialización de modelos analíticos a través de técnicas DevOps, y la organización de equipos de Analítica Avanzada. Además, se aborda el RGPD, garantizando que los datos se gestionen de manera ética y conforme a la normativa.

MÓDULO 3: Análisis de Datos Multivariantes I

Este módulo te permitirá profundizar en la construcción y evaluación de modelos para datos complejos. A través de los Modelos Lineales Generales y Generalizados (GLM), aprenderás cómo manejar situaciones como la predicción del precio de una vivienda usando una regresión lineal, donde las variables continuas como el tamaño y la ubicación influencian el valor de la propiedad. También explorarás modelos con variables cualitativas endógenas, como en el caso de una regresión logística que podría usarse para predecir si un cliente realizará o no una compra, en función de variables como la edad y los ingresos. Además, estudiarás enfoques avanzados como modelos mixtos, ANCOVA y MANOVA, que permiten analizar datos multivariantes en estudios más complejos.

A lo largo del módulo, aprenderás a evaluar estos modelos utilizando criterios como AIC, BIC y pruebas de ajuste, y a trabajar con técnicas como la regresión Ridge, Splines y Modelos Aditivos Generalizados (GAM), que son herramientas poderosas para resolver problemas reales en ciencia de datos, economía y salud pública.
Todo esto se implementará tanto en R como en Python, dándote las herramientas para abordar una amplia variedad de problemas del mundo real.

MÓDULO 4: Análisis de Datos Multivariantes II

En este módulo se abordan técnicas clave para analizar y reducir la complejidad de grandes volúmenes de datos. Comenzarás con medidas de distancia y proximidad, como la distancia de Mahalanobis, utilizada para detectar outliers en análisis de datos financieros. En la reducción de dimensiones, se exploran el Análisis de Componentes Principales (PCA) para la simplificación de grandes bases de datos y el Análisis de Correspondencias, útil en estudios de segmentación de mercado para identificar patrones de comportamiento en grupos de consumidores.

El agrupamiento de información incluirá el Análisis Discriminante, que te permitirá clasificar objetos, como identificar si un cliente tiene alta probabilidad de abandono de servicio, y Análisis Cluster para segmentar clientes en grupos con características similares, como en estrategias de marketing personalizado. Además, el escalamiento multidimensional se utilizará para representar gráficamente relaciones entre elementos en estudios de satisfacción del cliente, mientras que el Análisis de Correlación Canónica permitirá explorar la relación entre dos conjuntos de variables, por ejemplo, entre las características demográficas y los patrones de compra. Estas técnicas son fundamentales para manejar grandes volúmenes de datos y tomar decisiones basadas en patrones reales.

MÓDULO 5: Minería de Datos I

En este módulo aprenderás las principales técnicas para el análisis y evaluación de modelos predictivos. Comenzarás con la comprensión de cómo dividir tus datos en entrenamiento, validación y test, y aplicarás validación cruzada para garantizar la fiabilidad de los modelos. Utilizarás herramientas como scikit-learn en Python y tidymodels en R para implementar estos modelos y evaluar su desempeño con métricas como curvas ROC y matrices de costes.

En el análisis de árboles de Decisión, aprenderás a implementar modelos como CHAID y C5.0 para clasificación. Entre los diferentes casos de uso en el que se podría utilizar este tipo de técnicas se podría analizar si un cliente comprará o no un producto; así, el árbol de decisión puede predecir esa probabilidad basándose en características como la edad y el ingreso del cliente.

También explorarás Redes Neuronales Artificiales y Máquinas de Vectores Soporte (SVM). Imagina que trabajas con un conjunto de datos de predicción de precios de viviendas, donde la variable dependiente es cuantitativa (el precio). Usarás SVM o redes neuronales para predecir el precio de una vivienda en función de características como el tamaño, el número de habitaciones y la ubicación.

Además, aprenderás sobre Métodos de Ensemble como Bagging y Boosting para combinar múltiples modelos y mejorar las predicciones. Finalmente, se profundizará en la interpretabilidad de los modelos, utilizando herramientas en R y Python como SHAP para explicar las predicciones y entender cómo cada variable influye en los resultados.

MÓDULO 6: Análisis de Series Temporales

En este módulo aprenderás a trabajar con datos que varían a lo largo del tiempo, una habilidad clave para tareas como la predicción de ventas, la demanda de productos o la evolución de indicadores económicos. Comenzarás con los métodos de suavizado, como medias móviles y alisado exponencial simple, que te permitirán filtrar el "ruido" de los datos y detectar tendencias subyacentes. El método de Holt-Winters te enseñará a capturar tanto las tendencias como la estacionalidad de una serie temporal.

La descomposición temporal es otro aspecto crucial, donde aprenderás a separar una serie en componentes como tendencia, estacionalidad y ruido. Por ejemplo, si estás analizando las ventas de una tienda a lo largo del tiempo, podrás identificar si las fluctuaciones se deben a estacionalidades (como las vacaciones) o a tendencias a largo plazo.

Para la predicción de series temporales, se cubrirán modelos ARIMA, que son ampliamente utilizados para hacer pronósticos en datos de series temporales, como la previsión de la demanda de un producto. También se introducirá la transformada de Fourier, que te permitirá analizar las frecuencias subyacentes de una serie temporal y descomponerla en componentes más simples, muy útil para modelar datos con patrones cíclicos o estacionales.

Finalmente, se abordarán casos prácticos donde aplicarás estos métodos para hacer predicciones y evaluaciones de modelos en series temporales reales.

MÓDULO 7: Big Data en el Sector de Seguros

Este módulo explora cómo las tecnologías de Big Data y la analítica avanzada están cambiando el negocio asegurador. Comienza con una revisión de los fundamentos técnicos del sector, centrándose en la tarificación en seguros de vida y no vida, explicando cómo los datos ayudan a optimizar el cálculo de primas y la evaluación de riesgos.

Durante la asignatura se analizan como el Internet of Things (IoT) y la Inteligencia Artificial (IA), están impulsando la innovación en el sector asegurador. Estas tecnologías permiten personalizar servicios, predecir riesgos y mejorar la eficiencia operativa de las aseguradoras. En este contexto, se exploran casos de InsurTechs, startups que están revolucionando la industria mediante el uso de tecnología para crear nuevos modelos de negocio, como la suscripción cognitiva o el uso de datos en tiempo real para la toma de decisiones.

Dentro de la modelización predictiva, se trabaja con modelos de supervivencia, que se utilizan no solo en seguros, sino también en mantenimiento predictivo (como el fallo de piezas electrónicas), en sanidad para analizar la efectividad de tratamientos, y en la fuga de clientes para predecir la retención o abandono.

En el bloque de pricing, se profundiza en el uso de modelos GLM (Modelos Lineales Generalizados) para la tarificación, especialmente en el ámbito de seguros no vida, y cómo el análisis de datos ayuda a ajustar las primas y prever riesgos futuros. Estos modelos se implementarán utilizando herramientas como R y Python.

MÓDULO 8: Minería de Datos II

Este módulo profundiza en técnicas avanzadas de Deep Learning así como modelos probabilísticos y algoritmos de lógica difusa.

En el bloque de redes neuronales profundas se incluyen las Redes Neuronales Convolucionales (CNN), las cuales son comúnmente usadas en la clasificación de imágenes, pero también pueden aplicarse en la clasificación de textos; así como las Redes Neuronales Recurrentes (RNN), como LSTM y GRU, que se utilizan en tareas de forecasting y clasificación de texto. Estas redes son particularmente útiles para análisis de secuencias temporales o para entender el contexto y las dependencias a largo plazo en los datos, lo que las hace ideales para procesar textos, donde el orden de las palabras es crucial.

A lo largo de este bloque de Deep Learning se exploran también autoencoders para detección de anomalías y el uso de arquitecturas preentrenadas en detección de objetos y procesamiento de audios utilizando paquetes como Whisper de OpenAI, así como el aprendizaje por refuerzo (Q-Learning, Deep Q-Learning) es un enfoque útil para situaciones donde un modelo debe tomar decisiones a través de interacciones con un entorno, como en sistemas recomendadores o en robots autónomos.

Todo ello utilizando la librería Tensorflow, desarrollada por Google, así como el uso de arquitecturas preentrenadas manejando los ecosistemas de TensorflowHub y de HuggingFace

La asignatura cubre además otros contenidos como modelos probabilísticos y análisis causal donde se estudian los modelos bayesianos, las cadenas y modelos ocultos de Markov así como los principales conceptos de Machine Learning Causal (haciendo uso de la librería CausalML desarrollada por Uber). Finalmente, se cubre la lógica difusa con aplicaciones en clustering difuso y sistemas de diagnóstico.

El contenido práctico de esta asignatura se imparte exclusivamente en Python.

MÓDULO 9: Text Mining y Web Mining

Este módulo se centra en la minería de textos (text mining), que básicamente consiste en aportar estructura a datos textuales no estructurados (procesamiento del lenguaje natural), permitiendo el análisis de los datos para generar conocimiento. La minería y el análisis de textos identifican patrones y tendencias textuales dentro de datos no estructurados mediante el uso de machine learning, la estadística y la lingüística.

El módulo profundiza en el análisis lingüístico, siendo una parte esencial en el procesamiento del lenguaje natural: análisis léxico (tokenización), etiquetado gramatical (parts-of-speech tagging, POS tagging), lematización y análisis sintáctico.

También se aborda la representación vectorial de palabras –word embeddings– para analizar textos, mediante modelos como: Word2Vec, GloVe, fastText.
Así como, la representación vectorial de documentos –doc embeddings–, usando el modelo Doc2Vec.

El módulo hace especial hincapié en la clasificación de texto (colección de documentos de texto):

En el módulo se estudian los Grandes Modelos de Lenguaje (LLM, Large Language Model) y la arquitectura Transformers.
Centrándose en los modelos de Hugging Face (implementación con PyTorch). Modelos orientados a tareas de procesamiento del lenguaje natural (NLP): clasificación de texto, análisis de sentimiento, reconocimiento de nombres de entidades (named entity recognition, NER), búsqueda de respuestas (question answering, QA), modelado de lenguaje, resumen de texto, traducción, generación de texto,…

Finalmente, se muestran técnicas para llevar a cabo Web Scraping y Web Crawling, para extraer información de un sitio web.

MÓDULO 10: La Transformación Digital en el Sector Financiero

Este módulo profundiza en el impacto de las tecnologías emergentes en el sector financiero proporcionando una comprensión integral de cómo la digitalización y la innovación están transformando esta industria. Se examinan los conceptos clave de Big Data como pilar fundamental en la creación de empresas data-driven en la banca, mejorando la toma de decisiones y la eficiencia operativa. Cloud Computing se presenta como una herramienta esencial para la flexibilidad y escalabilidad de los servicios financieros. Además, se aborda la omnicanalidad, que integra todos los puntos de contacto con el cliente, garantizando una experiencia fluida y personalizada. La banca digital es otro tema central, con énfasis en cómo las instituciones deben adaptar su cultura a la digitalización y enfrentar retos como la ciberseguridad y la innovación constante.

El módulo también analiza el impacto de las Fintech en la redefinición del modelo bancario, con un enfoque de cómo estas startups están cambiando las reglas del juego y desafiando a los bancos tradicionales. Se estudian casos de éxito y fracaso en el ecosistema Fintech, lo que permite comprender mejor las claves de su funcionamiento. Además, se exploran alternativas de financiación en el contexto de la economía colaborativa, como el crowdfunding y crowdlending, donde se examinan sus diferentes modalidades, como el equity crowdfunding, y las implicaciones regulatorias.

Finalmente, se desarrollan mediante el uso de R y Python, las principales aplicaciones de Big Data y Data Science en el sector financiero; como credit scoring, que permite mejorar la evaluación de riesgos, y detección de fraude, que ayuda a proteger las transacciones. También se abordan herramientas para optimizar la experiencia del cliente, desde la personalización de productos hasta la mejora de la atención al usuario.

MÓDULO 11: Turismo y Smart Cities

Este módulo explora la relación entre turismo y smart cities, enfocándose en cómo los datos y la tecnología optimizan la movilidad, el consumo y el comportamiento turístico. Se analizan patrones de gasto turístico, utilizando herramientas como EGATUR, y se introducen modelos predictivos sobre flujos de personas y monetarios. También se abordan estrategias de promoción y regulación del turismo en ciudades inteligentes. Además, se profundiza en el uso de aplicaciones móviles para generar grandes volúmenes de datos turísticos y en cómo estos datos mejoran la experiencia y sostenibilidad del turismo urbano.

MÓDULO 12: La Revolución del Big Data en el Transporte

Este módulo explora cómo el Big Data transforma el transporte, desde la accesibilidad y distribución de actividades hasta su impacto en la sociedad y el medio ambiente. Se analizan las fuentes tradicionales de datos (encuestas y estadísticas) y las nuevas fuentes que emergen, destacando sus retos y oportunidades. Se profundiza en el uso de modelos predictivos para la planificación del transporte, apoyados en Sistemas de Información Geográfica y herramientas como R. Además, se aborda el impacto del Big Data en la movilidad urbana e interurbana, optimizando la planificación pública y generando nuevos modelos de negocio. También se exploran oportunidades en el sector logístico, como la detección de fraude y la mejora de la intermodalidad.

MÓDULO 13: Publicidad Digital Aplicada a los Negocios

Este módulo cubre la comunicación digital en los negocios, enfocándose en cómo la web del usuario se convierte en una fuente clave de datos para marketing digital. Se exploran técnicas para diferenciación y posicionamiento, con ejemplos prácticos. Además, se analiza el marketing directo y las nuevas herramientas para la construcción de relaciones con los consumidores. La tecnología móvil y el marketing integrado se exploran dentro de las nuevas tendencias, con un enfoque en la experiencia de usuario. Finalmente, se ofrece una introducción a la planificación estratégica de marketing, con un caso práctico de aplicación.

MÓDULO 14: Sector Público y Sanidad

Este módulo profundiza en la aplicación del Big Data en la estadística oficial, analizando cómo la huella digital de la actividad humana enriquece el estudio estadístico. Se destacan los retos de integrar Big Data en los sistemas estadísticos nacionales e internacionales. En el campo de la salud, se exploran las utilidades y retos de Big Data en la práctica clínica, así como las fuentes de datos y las etapas de procesado clínico. Finalmente, se estudian las herramientas de Big Data en medicina, incluyendo redes neuronales, ensemble learning y deep learning para mejorar el diagnóstico y los análisis clínicos tanto en R como en Python.

MÓDULO 15: Normativa de Protección de Datos

Este módulo cubre la normativa de protección de datos, comenzando con su objeto y ámbito de aplicación, y definiendo términos clave. Se revisan los principios relativos al tratamiento de datos, como la licitud, el consentimiento y otros aspectos legales. El módulo aborda los derechos del interesado, como la transparencia, acceso a los datos, y rectificación, entre otros. Se examina la responsabilidad tanto del responsable como del encargado del tratamiento de datos, destacando aspectos como el registro de actividades y transferencias internacionales. Finalmente, se explora el concepto de responsabilidad proactiva en la protección de datos, que incluye la seguridad, delegados de protección y la importancia de las evaluaciones de impacto.

TRABAJO FIN DE MASTER

Aquellos estudiantes que cursen el Máster y hayan alcanzado 50 créditos, los últimos 10 créditos para la consecución del título se obtendrán con la elaboración de un trabajo final obligatorio.