Grupo de Usuarios de R de Madrid - colaborador en el Máster en Big Data y Data Science on line - aplicados a la Economía y a la Administración y Dirección de Empresas

El pasado 17 de agosto de agosto se cumplieron 20 años de la creación del "Grupo de R", varios antes de que se liberara la primera versión de "R". Nada hubiera podido augurar el crecimiento tan explosivo que ha tenido hasta incluso alcanzar las 20 años Grupo Rentre los lenguajes de programación.

Su crecimiento ha venido impulsado por diferentes palancas: su carácter gratuito (opesource), su fuerte por amplia, competente y vibrante comunidad y sin duda por la coincidencia en el auge del aprendizaje automático (Machine Learning) y de la Analítica Avanzada en la industria del IT.

Estas condiciones que sustentan su auge actúan como condiciones necesarias, pero como los teoremas matemáticos, hay una condición suficiente, igualmente básica para que este crecimiento se consolide y es la capacidad de sus usuarios de poder utilizar “R” y otros lenguajes de programación con criterio tanto en los ámbitos académicos, como en el ámbito empresarial.

R ha conquistado plenamente el ámbito académico. Es el lenguaje de preferencia. Son constantes las aportaciones que de este espacio recibimos. Afortunadamente, son cada vez más los estudiantes que se forman utilizando R, aprenden las bases del análisis de datos, estadística, visualización, etc, incluso participan con notable éxito en las numerosas competiciones de datos.

En el ámbito empresarial, en cambio, el nivel de madurez que tanto R como otros lenguajes de programación orientados al análisis han alcanzado es todavía moderado. Los grandes proveedores de software empresarial (IBM, Microsoft, Oracle) están abrazando con gran intensidad las diferentes iniciativas opensource que ofrecen unas garantías básicas en su desarrollo (gestión de las nuevas versiones, existencia de un ciclo de aprobación de nuevas contribuciones). En este aspecto la aportación de la Fundación es básico como estructura de gobierno. La igualmente reciente creación del R-Consortium es otra muestra más de este apoyo que la industria está dando a “R” como lenguaje que puede aplicarse con garantías a  un entorno empresarial cada vez más exigente en materia de gestión de datos.

Es en este aspecto de fortalecimiento como lenguaje para el entorno empresarial donde estamos viendo aportaciones muy interesantes en la comunidad de R  que profundizan en la visión de John Chambers de hacer de R un lenguaje que actúe como interfaz que integre tanto algoritmos propios como de terceros "...the best future is one of variety, not uniformity (el mejor futuro es uno de variedad, no de uniformidad)". Aunque más lentamente que con otros lenguajes (Java, Python, etc), R ya dispone de formas de interaccionar con los nuevos paradigmas del procesamiento en paralelo (Spark a través de sparklyr y H2O) y con los nuevos algoritmos de aprendizaje profundo (Keras, TensorFlow, mxnet). La labor de RStudio está siendo fundamental en este aspecto. Los entornos empresariales precisan de soluciones que den respuesta a múltiples aspectos ya consolidados desde hace tiempo en la industria del desarrollo del software (software engineering): control de versiones, desarrollo colaborativo, capacidad de despliegues en producción de forma automática (DevOps), publicación de resultados, seguridad de acceso a datos sensibles, etc. A estos elementos básicos se añade el novedoso concepto del Reproducible Research de la capacidad de vincular los datos y el análisis como elemento específico del dominio del “Data Science”.

Dar respuesta con criterios empresariales sólidos a tanta variedad de conceptos no es fácil y es aquí donde la formación en estas nuevas tecnologías con esta orientación industrial juega un papel decisivo. La industria del sector IT precisa de incorporar de forma rápida un creciente número de profesionales, el mercado está resolviendo esta fuerte demanda con una igual de creciente oferta de cursos, másters, formaciones prácticas especializadas, etc.

El Grupo de Usuarios de R de Madrid (colaborador en el Máster en Big Data y Data Science aplicados a la Economía y a la Administración y Dirección de Empresas) ha actuado desde su creación (ya son casi seis años) como punto de encuentro de muchos de los que usamos R. Las primeras reuniones del Grupo se orientaban fundamentalmente a demostrar diferentes capacidades de R sobre conjuntos limitados de datos. Usábamos R tanto para crear mapas de terremotos como para escrapear páginas web y capturar datos de muy diferente tipo. Aquellos casi divertimentos, han dado paso a análisis complejos (predicciones de viajes, de consumo eléctrico) sobre infraestructura distribuida y sobre volúmenes de datos masivos. En aquellos primeros análisis éramos nosotros mismos los que nos contábamos nuestros pequeños/grandes avances; ahora son cada vez más las empresas las que nos cuentan cómo usan R integrado con sus sistemas corporativos. Y lo que nos queda por ver...

Carlos Ortega
Madrid - Agosto 2017.

Guardar

Guardar