Grandes conceptos como Big Data o Data Science obligan a hablar del software de referencia en el mundo de la estadística: “R”. La maestría académica en la ciencia de los datos es adentrarse en un viaje interdisciplinario extraordinariamente útil en cualquier campo que involucre manejo e interpretación de información: es la generación de conocimiento, mediante el análisis de los datos (estructurados o no estructurados), para responder a los interrogantes que marcan la diferencia en cualquier investigación o proyecto empresarial, apoyándonos en grandes logros como el aprendizaje automático, la minería de datos o la estadística.

Entre lo que hace especial al entorno de programación basado en “R” es que está formado por la unión flexible de distintas herramientas. Y que todas ellas resultan ampliables cuando se instalan distintos paquetes, librerías o funciones creadas por nosotros mismos. Es el software estadístico por excelencia, el más usado en investigación científica, libre y por lo tanto gratuito (mantiene un código abierto, como proyecto GNU).

Ampliamente usado en empresas y proyectos por su carácter opensource, “R” también actúa como propulsor de grandes paquetes de software como SAS, STATA o SPSS. Su comunidad virtual de programadores y la cantidad de recursos en la Red lo convierten en una especie de “organismo vivo” y en evolución.

Igualmente, sus desarrollos para la creación gráfica son asombrosos. En este sentido, conviene destacar que “R” permite interfaces que ofrecen una avanzada usabilidad, como RStudio; que, a su vez, disponen de paquetes flexibles y aplicables a una gran gama de entornos y demandas: sobresale la solución Shiny para la creación de aplicaciones Web interactivas y reactivas.

Como se viene comentando en las redes sociales, ya existe un programa de Experto Universitario en Web Dinámicas con SHINY impartido por prestigiosos profesionales del sector y con el amparo académico de la UNED.

CÓMO EMPEZAR A CAMINAR Y HABLAR EN “R”

En primer lugar (aunque muy resumidamente), es necesario preparar nuestro equipo de trabajo con “R”, procediendo a la descarga e instalación de ficheros desde la Web de proyecto R. Luego necesitaremos otras instalaciones, como RStudio, a modo user interface.

Tendremos en la Red variedad de propuestas y ejemplos sobre análisis estadísticos sencillos o de complejidad media.

Una vez que se domina la user interface de RStudio, es básico entrenarse en la instalación de paquetes de funciones.

Aventurarse con “R” implica programar. Solo de esta forma se comprenderá su arquitectura, variables o posibilidades metodológicas. Uno de los objetivos de todo comienzo en esta materia es saber cómo estructurar nuestro código.  R no es un lenguaje de programación estructurado, pero a través del uso de las librerías y sus estructuras puede ser manejado por personas que no tienen una base de programación.

Por supuesto, si algo ayuda en este proceso de aprendizaje es el trabajo colaborativo que caracteriza a la comunidad de programadores. Es decir, las infinitas posibilidades en el análisis de datos que ofrece este software van de la mano de las extensiones creadas por una gran cantidad de desarrolladores que ponen sus conocimientos al alcance de todos. Al margen de que existan paquetes oficiales, “R” es “conocimiento socializado” en la lógica aceptada por gran parte de las humanidades: existen foros, blogs, sitios para descarga de scripts, documentación liberada, etc.

Siguiendo con esta breve descripción acerca de los primeros pasos hacia el Big Data y el Data Science, la siguiente meta es explorar algunas de las vías para importar los datos. Y luego el análisis en sí. Existen diversos paquetes para ambos fines, algunos especializados en la comunicación con distintas bases de datos, como RMySQL e incluso Excel.

En cuanto al trabajo manipulando los datos, también existes muchas opciones: paquetes para crear tablas, tratamiento con caracteres o trabajo con series temporales.

Posteriormente, arribamos al momento más interesante y útil de todo este esfuerzo: la interpretación de los datos y la estructuración de conclusiones. Es el instante donde el profesional en Big Data y el Data Scientist se encuentran con grandes campos de estudio e investigación como la estadística aplicada, la Minería de Datos o el Machine Learning. Se trata de áreas del saber con una gran cantidad de material de consulta, acciones formativas y documentación general disponible en la Red.

VISUALIZACIÓN

Obtener un conocimiento que antes estaba codificado en los datos y hacer que éste tenga un papel facilitador y orientador en las tomas de decisiones que llenan los grandes y pequeños asuntos humanos, demanda que la visualización exhiba una pedagogía profunda, plástica y versátil.

Graficar acertadamente los datos es fundamental. Con este fin existen paquetes en “R” destinados al continuo mejoramiento de estas tareas. Pero entre los criterios importantes a tener en cuenta al diseñar la visualización tenemos aquellos que tienen que ver con la interactividad.

Un gráfico interactivo permitirá, por ejemplo, una navegación por los datos que vendrá a ser interesantísima en más de una disciplina. También hará que la perspectiva del análisis sea más amplia. Y, puede que lo más interesante, los desarrollos en esta vía permitirán visualizar cambios o evoluciones en los resultados cuando un usuario, como un cliente o un investigador, modifica los parámetros.

Como antes adelantamos, entre los paquetes más exitosos, potentes y sencillos de implementar para generar gráficos interactivos con “R” está Shiny, una de las estrellas de RStudio: Nos faculta para crear aplicaciones Web interactivas que se incluyen dentro de un código HTML (generado por el propio paquete Shiny), permitiendo una visualización interactiva y avanzada directamente en la Red.

Podríamos afirmar que Shiny es uno de los apéndices más importantes del Big Data, cualquier estudioso o profesional en la materia debería considerar este paquete de RStudio entre sus planes prioritarios de formación y actualización de conocimientos. No debemos olvidar que la última capa de un proyecto en Big Data Science es la visualización y presentación de los datos explotados y las conclusiones obtenidas.

APRENDER A PROGRAMAR EN “R” CON UN BUEN RUMBO… BIG DATA Y DATA SCIENCE

Las etapas que escuetamente hemos descrito al principio hablan de lograr dominio en una herramienta sobre la cual se construyen importantes proyectos de analítica masiva de datos en todo el mundo.

En otras palabras, aprender a programar en “R” nos introduce en lo que algunos ya consideran la gran industria y nueva divisa de la era digital. Se trata de habilidades con aplicación en un cosmos muy grande de disciplinas y campos productivos, que pueden prepararnos tanto para cambios en las demandas de perfiles profesionales como para ser parte de la solución a algunos de los grandes dilemas de nuestro momento histórico.

Pero si conocer el rumbo cuando se emprende un viaje es importante, en este universo del análisis de los datos, tal vez, deba considerar un aprendizaje de “R” como parte de un objetivo mayor.

Entre las opciones más prometedoras tendremos la participación en formaciones superiores, modulares y aplicadas a campos de interés actual. Siempre será mejor convertirse en un gran programador en “R”, en un talentoso del Big Data y un Data Scientist con el respaldo de un buen programa universitario.