¿Qué es el Big Data? ¿Muerde? No hombre, no. Pero yo tampoco lo tenía muy claro. Por eso, la semana pasada asistí al cursillo sobre BIG DATA que organizó la Fundación Agustín de Betancourt en la ETSI Caminos de Madrid. En este curso pude, por fin, enterarme de qué es exactamente el Big Data, cómo se trabaja con él, conocer algunos casos de aplicación en el mundo de la ingeniería y las oportunidades que representa. ¿Quieres enterarte tú también?
¿Qué es BIG DATA?
Estoy seguro de que, con el nombre que los expertos de marketing le han dado a esta forma de trabajar, ya te hueles por donde van los tiros.
Yo también pensaba en lo mismo: muchos datos. Y la respuesta es si y no.
Cuando hablamos de BIG DATA hablamos de almacenamiento de ingentes cantidades de datos, pero muchos muchos, y su gestión mediante una tecnología determinada (Apache Hadoop y Map Reduce) para sacarle un rendimiento a todos esos datos almacenados (lo que en inglés denominan Analitics) e incluso dar con «Insight», es decir, conclusiones a las que no esperábamos llegar pero que descubrimos en el análisis de esos datos.
Por tanto, Biga Data no es almacenar datos y datos como se hace hoy en día en prácticamente todos los entornos que presumen de usar esta tecnología. Y tampoco es la gestión de grandes volúmenes de datos (no tan grandes en realidad) como se ha venido haciendo hasta ahora.
«Si esa información no se usa para sacarle cierto rendimiento, NO ES BIG DATA»
Las 5 claves del Big Data
Para terminar de aclarar este concepto, te voy a dar un pequeño truco mnemotécnico que te ayudará a recordar las cinco claves del Big Data:
LAS 5 V’s DEL BIG DATA
- Volumen: como ya te he dicho… Petabytes y petabytes de datos
- Velocidad: gracias a la tecnología empleada (y que te explico más adelante) podemos trabajar con todos esos datos de forma rápida, permitiendo obtener resultados en tiempo real.
- Variedad: gracias a algoritmos de «machine learning» podemos trabajar con datos de todo tipo (números, textos, vídeos, imágenes…)
- Veracidad: aunque podemos trabajar con tantos datos como queramos, es importante que esos datos sean correctos. En caso contrario los resultados no serán válidos. Qué menos, ¿no?
- Valor: como ya te he dicho, si no les sacamos rendimiento a esos datos, no estamos hablando de Big Data.
BIG DATA vs «Little Data»
Vale, pero cuál es la diferencia con lo que se hace hoy en día. Como te puedes imaginar muchos aspectos de nuestra sociedad se miden constantemente para sacar conclusiones y actuar en consecuencia (aviones, trenes, telecomunicaciones… y no solo en ingeniería). Es a lo que me he permitido el lujo de llamar «Little Data» (con permiso del profesor Antonio Lara, Director Técnico de la fundación)
Entonces ¿por qué esta tan de moda esto del Big Data? ¿En qué se diferencia del «Little Data»? Cuando hablamos de Big Data, hablamos de un inmenso volumen de datos (Petabytes, Exabytes…), cantidades que escapan a nuestra razón. Aunque desde hace años hemos tratado con volúmenes relativamente grandes de información, siempre se tendía a analizar solo una muestra de toda la información a nuestra disposición, empleando análisis estadístico para sacar conclusiones válidas.
Con Big Data, esto no hace falta. ¿Por qué vamos a analizar una muestra pudiéndolo analizar todo? ¿Por qué no buscar relaciones con los datos de los últimos 40 años? ¿Por qué no relacionar todas las variables que afectan a una determinada situación? Esta tecnología hace todo esto rápido, barato, pero sobretodo, posible. Esa es la gran diferencia.
¿Cómo funciona la tecnología Big Data?
A estas alturas te imaginarás que para trabajar con tal volumen de datos es necesario un «megasuperordenador» cuántico de la NASA.No, amigo. La solución es mucho más sencilla, pero a la vez compleja.
Como no podía ser de otra forma, la base de la tecnología Big Data se lo debemos a Google. La gran «G» fue una de las primeras compañías (junto con Amazon, Facebook entre otras) que se vieron ante necesidad de almacenar y gestionar ingentes volúmenes de datos (webs indexadas, información personal, etc.) de forma eficaz.
Como consecuencia, Google desarrollo la tecnología Google File System (GFS) y Map Reduce (como lenguaje de programación), y que serían la base para que la comunidad de desarrolladores Apache diera lugar al software conocido como Apache Hadoop.
Gracias a este software, para implementar un sistema Big Data no necesitamos de potentes ordenadores. Hadoop permite conectar tantos ordenadores como se quiera sea cual sea su potencia individual, siendo capaz repartir el «trabajo» en cada uno de esos ordenadores poco potentes (paralelización). De esta forma se puede trabajar con tantos datos como se quiera (solo habría que añadir más y más ordenadores), obteniendo resultados de forma rápida. Algo desde luego impensable hasta hace relativamente poco.
¿Qué pintamos los ingenieros en todo esto?
La moda del Big Data no hace más que crecer y crecer. Todo el mundo quiere ser Big Data y, por tanto, un nuevo mundo de oportunidades se abre ante nosotros (y sobretodo ante los más jovenes, entre los que me incluyo)
Aunque la programación de los algoritmos Map Reduce que hacen funcionar toda esta maquinaria requiere de un conocimiento más o menos profundo de ciertos lenguajes de programación, el ingeniero es clave a la hora de sacar rendimiento a todos esos datos almacenados.
El ingeniero es quién se hace las preguntas correctas y el que, en última instancia, da valor a esos datos en la toma de decisiones. Por tanto, el ingeniero juega un papel fundamental junto con el equipo material y el equipo humano (programadores, analistas) en el funcionamiento óptimo del Big Data.
Pero bueno, de eso ya hablaremos con más profundidad en el siguiente post. 😉
Por hoy lo dejamos aquí. He tratado de aclararte el concepto de Big Data y darte una visión general de como funciona todo. Si te ha resultado útil, de verdad, no dudes en compartirlo. Me haces un grandísimo favor. Y déjame en los comentarios cualquier duda, entre todos seguro que te podemos echar un cable. Un saludo! 🙂