LENGUAJE R: PIEDRA ANGULAR DEL BIG DATA

Como ya conocemos, R se origina como software libre a partir del lenguaje S (creado por los Laboratorios AT&T Bell), compartiendo su filosofía y extraordinario potencial. De hecho, varios programas en S pueden usarse en R. Extendiéndose con un enorme éxito gracias a sus aplicaciones estadísticas, se halla consolidado en sectores como la minería de datos, las finanzas, la investigación médica o las ciencias sociales.

R es un lenguaje no estructurado compuesto de multitud de paquetes de funciones (más de 4 mil) útiles en distintos tipos de análisis. Como software libre que es, estas funciones comienzan a ser desarrolladas por los mismos usuarios, siendo publicadas paulatinamente.

R crece, pues, de una forma exponencial gracias a los aportes de profesionales y científicos de datos que publican su trabajo. Uno de los docentes del Máster en Big Data y Data Science de la UNED (España), por ejemplo, Dr. Francisco Javier Parra, ha creado ya tres funciones que hacen parte de la ya legendaria versatilidad del lenguaje R: una de ellas consiste en una regresión con series de Fourier, otra sirve para dar tratamiento a la Encuesta de Presupuestos Familiares (EPF) y otra realiza una descomposición de series temporales. En el caso de las series de Fourier hablamos ya de estructuras de una gran complejidad.

Es de nombrar que R está muy presente en los ejercicios formativos en Big Data y Data Science: al ser un lenguaje gratuito acaba calando muy fuerte en los círculos académicos, por ejemplo, en las facultades de ciencias sociales. Se asimila esta manera de programar también por los altos costos de las alternativas de pago. Con lo cual, a pesar de ser un lenguaje un tanto “rudo”, se va adaptando a amplitud de necesidades y demandas.

Siendo un conjunto muy vasto de funciones estadísticas, con una base de programación no estructurada, su presencia se vio pronto muy consolidada en la escritura de programas para el análisis “especial y profundo” de los datos. Presentando, además, varias características atractivas: funciona con comandos, sirve para analizar datos y generar gráficos de gran calidad (que se pueden visualizar y guardar en varios formatos de manera directa), es integrable en distintas bases de datos (dado que puede correr sobre diferentes hardware y software), tiene versatilidad en el momento de llamar a paquetes de datos y bibliotecas mediante una gama generosa de funcionalidades, muestra resultados estadísticos en pantalla pero permite guardar resultados intermedios y exportarlos, la relativa facilidad para dar respuesta a necesidades gracias al tamaño de la comunidad R en el mundo, etc.

Uno de los casos importantes sobre desarrollos en base a R, es aquel que ha permitido crear webs interactivas enfocadas al análisis y presentación de datos estadísticos; por ejemplo artículos que admiten el código generando en el mismo documento todos sus resultados. Esta aplicación se conoce con el nombre de Shiny.

En España, por supuesto, R se impone en todas las facultades que no sean de Ingeniería Informática, donde domina el estructurado lenguaje de Python. Sin embargo, R no tiene una forma de proceder estándar a nivel informático, no tiene una estructuración definida “tradicional” (siendo, no obstante, muy flexible).

Si un alumno, durante su Trabajo de Fin de Máster, tiene una imagen integral del alcance de R, que no es otra cosa que conciencia sobre la “posibilidad de hacerlo todo” a nivel de proceso estadístico, habremos labrado el terreno para (casi) adelantarnos a los nuevos retos.

Es decir, en la praxis de llamar funciones con los parámetros adecuados nos embarcamos en procesos cuyos resultados son objetos; lo que quiere decir que, acudiendo a una variable determinada, se puede explorar el interior de ese objeto y acceder al detalle especifico de los posibles resultados. Este nivel de abstracción (la imagen de los resultados como un objeto con dimensiones y contenido interior) da una idea de la riqueza del análisis: tanta como direcciones posibles en el “corte” de ese objeto, revelando una matriz de interpretación de dimensiones insospechadas.

Al interpretar los resultados como un objeto, la flexibilidad de R permite centrarse solo en la parte del análisis que interesa en cada momento.

Los resultados de las funciones acaban siendo objetos que se sumarizan, permitiendo acceder luego a determinados componentes del objeto para realizar un análisis más pormenorizado.

Por otra parte, y esto es muy importante, las funciones de R interactúan con otros programas (por ejemplo, con programas de inferencia bayesiana) y con el Big Data. Es decir, en el caso de librerías, permite trabajar en entornos distribuidos.

Desde R podemos comunicarnos con otros entornos y trabajar, por ejemplo, en Hadoop y Spark. La ventaja de conectar varias máquinas (servidores de memoria) y hacer que todas trabajen como una sola (en la misma tarea), nos proporciona la capacidad de atacar bases de datos muy grandes mediante particiones.

Ese “divide y vencerás” esconde parte de las claves de la actual revolución vivida en los horizontes del Big Data, y es uno de los aspectos más importante a tener en cuanta en las acciones formativas en esta área.

Entre las listas de lenguajes de programación más populares, tenemos la del Instituto de Ingeniería Eléctrica y Electrónica (Institute of Electrical and Electronics Engineers o IEEE), que cuenta con alrededor de 425.000 miembros en 160 países. Esta lista se basa en los lenguajes más usados para desarrollos web, soluciones para empresas, aplicaciones móviles, etc. Su índice estrella para 2017 indica que los lenguajes más usados (entre una lista de 48) son Python, C, Java, C++, C#, R, JavaScript, PHP, Go y Swift.

Guardar

Guardar

Guardar

Guardar

Guardar

0
0
0
s2smodern
powered by social2s

En el Blog

ContactAR

Información y matriculación

Facultad de
Ciencias Económicas y Empresariales

  • Paseo Senda del Rey, 11. 28040 Madrid.
  • Email de información:
    Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

Este sitio usa cookies

Si sigues navegando entendemos que aceptas nuestra política de cookies Saber más

Acepto

Política de cookies

La Universidad Nacional de Educación a Distancia y el Máster de Big Data y Data Science informa acerca del uso de las cookies en sus páginas web para mejorar los servicios que se prestan a través de la misma.

Las cookies son archivos que se pueden descargar en su equipo a través de las páginas web. Son herramientas que tienen un papel esencial para la prestación de numerosos servicios de la sociedad de la información. Entre otros, permiten a una página web almacenar y recuperar información sobre los hábitos de navegación de un usuario o de su equipo y, dependiendo de la información obtenida, se pueden utilizar para reconocer al usuario y mejorar el servicio ofrecido.

Aceptación de la Política de cookies

La UNED asume que usted acepta el uso de cookies. No obstante, muestra información sobre su Política de cookies en la parte inferior de cualquier página del portal con cada inicio de sesión con el objeto de que usted sea consciente.

Ante esta información es posible llevar a cabo las siguientes acciones:

  • Aceptar cookies. Se trata de una aceptación tácita, siendo una política aceptada por el hecho de usar el portal web de la UNED.
  • No aceptar las cookies. Abandonar la navegación en el portal web de la UNED.
  • Modificar su configuración de su navegador. Podrá obtener más información sobre qué son las cookies, conocer la Política de cookies de la UNED y modificar la configuración de su navegador.

Otra información de interés

Tipos de cookies

Según la entidad que gestione el dominio desde donde se envían las cookies y trate los datos que se obtengan, se pueden distinguir dos tipos: cookies propias y cookies de terceros.

Existe también una segunda clasificación según el plazo de tiempo que permanecen almacenadas en el navegador del cliente pudiendo tratarse de cookies de sesión o cookies persistentes.

Por último, existe otra clasificación con cinco tipos de cookies según la finalidad para la que se traten los datos obtenidos: cookies técnicas, cookies de personalización, cookies de análisis, cookies publicitarias y cookies de publicidad comportamental.

Para más información a este respecto puede consultar la Guía sobre el uso de las cookies de la Agencia Española de Protección de Datos

Cookies utilizadas en la web de la UNED

A continuación se identifican las cookies que están siendo utilizadas en este portal así como su tipología y función:

  • Google Analytics. En su navegador podrá observar esta cookie denominada _ga. Según la tipología anterior se trata de cookies de terceros, de sesión y de análisis. Los datos que se recopilan, procesan y almacenan en la cuenta de la UNED de Google Analytics, están protegidos y se conservan de manera confidencial. Los datos de Google Analytics se utilizan únicamente para fines estadísticos, siendo el único dato considerado como de carácter personal tratado en este servicio la dirección IP.

Puede encontrar más información al respecto e inhabilitar el uso de estas cookies www.google.es/intl/es/analytics/privacyoverview.html

A través de la analítica web se obtiene información relativa al número de usuarios que acceden a la web, el número de páginas vistas, la frecuencia y repetición de las visitas, su duración, el navegador utilizado, el operador que presta el servicio, el idioma, el terminal que utiliza, o la ciudad a la que está asignada su dirección IP. Información que posibilita un mejor servicio de este portal.

  • UsuarioUNEDv2. Cookie de sesión (con un periodo de validez de 12 horas), propia y de tipo técnico, cookie firmada digitalmente únicamente es accesible por otros sistemas mediante SSL. Permite la navegación por el portal de forma personalizada, además de permitir mediante una única validación del usuario en el portal, acceder a otros sistemas y/o servicios de forma transparente, sin necesidad de tener que volver a identificarse
  • ASP.NET_SessionId. Cookie de tipo técnico, propia y de sesión. Cookie generada por el servidor. Esta cookie permite almacenar un identificador único por sesión a través del que es posible vincular datos necesarios para posibilitar la navegación en curso.
  • SSO_SesionID. Cookie de tipo técnico, propia y de sesión. Empleada por el portal corporativo para gestion de privilegios del usuario.
  • JSESSIONID. Cookie de tipo técnico, propia y de sesión. Empleada por componente java del servidor para posibilitar la navegación en curso.

Cómo modificar la configuración de las cookies

Usted puede restringir, bloquear o borrar las cookies de la Universidad Nacional de Educación a Distancia o cualquier otra página web, utilizando su navegador. En cada navegador la operativa es diferente, la función de ‘Ayuda” le mostrará cómo hacerlo.

Ir al principio