Big Data

Qué es Hadoop y por qué revolucionó el Big Data

Síguenos en:

Hadoop es el software de código abierto que fue la semilla de lo que hoy se conoce como Big Data. La solución para procesar los datos en tiempo real. Te contamos más.

Por Redacción España, el 20/11/2019

¿Te ha gustado nuestro artículo? ¡Vota!

Hadoop es el software de código abierto que fue la semilla de lo que hoy se conoce como Big Data. Fue así, principalmente, porque planteó solución a una de las trabas principales en el desarrollo de esta disciplina: ¿cómo procesar de forma eficiente y en tiempo real la gran cantidad de datos que se recaban y almacenan? Y sobre todo de manera económica. Te explicamos más sobre qué es Hadoop.

Contexto de Hadoop

A principios del siglo XXI, los entornos en nube habían solucionado uno de los problemas que planteaba el Big Data: dónde almacenar el enorme volumen de datos que se recaban a cada segundo. Sin embargo, existía otra cuestión por resolver, partiendo de la base de que esos datos, si no son correctamente procesados y analizados, carecen de valor.

Hasta la llegada de Hadoop, no existían herramientas que permitieran realizar ese procesamiento y análisis a tal escala y en tiempo real. Las pocas que había tenían precios prohibitivos. Hadoop dio respuesta a esa necesidad, basándose en un modelo de programación lanzado por Google: MapReduce.

Qué es MapReduce

MapReduce es un paradigma lanzado por Google en el año 2004 para cubrir sus necesidades de procesamiento automático de los datos de todas las páginas webs, almacenados en su index. Fue así como resolvió los problemas que se le planteaban a la hora de calcular el Page Rank, esto es, el listado de resultados que se muestra cada vez que hacemos una consulta en el buscador. Google publico un paper donde detallaba como había conseguido tener una infraestructura escalable, robusta y basada en muchos ordenanores normales, en lugar de grandes máquinas.

La gran innovación de Google fue que planteó un modelo de computación en paralelo. Este modelo utiliza un servidor principal y varios servidores secundarios. En lugar de procesar toda la información desde un solo servidor, el principal recibe la data y la distribuye entre los secundarios, que la procesan siguiendo las órdenes del principal, como en un equipo de trabajo. Esto es posible porque diseño un sistema de archivos distribuidos, que llamo GFS o Google File System, lo que después dio lugar a HDFS.

Historia de Hadoop

Inspirándose en la computación en paralelo de Google, los programadores Mike Cafarella y Doug Cutting lanzaron la primera versión de Hadoop el 1 de abril de 2006. Se trata de una solución de código abierto que emplea la computación en paralelo para procesar y analizar volúmenes enormes de data.

Cutting inició la investigación mientras trabajaba en Google, y la continuó al marcharse a Yahoo. Entonces se enmarcó en el proyecto de desarrollo de Nutch, motor de búsqueda de esta última compañía, este proyecto tenia problemas de escalabilidad, leyó el paper de Google y lo implemento, dando lugar a Hadoop y HDFS como proyectos de Apache. Poco después creo Cloudera.

Qué es Hadoop

Hadoop se desarrolló como un modelo de procesamiento automático basado en computación en paralelo extrapolable a cualquier programa de procesamiento de grandes volúmenes de datos.

Hadoop es un framework de código abierto, esto es, que cualquier persona puede acceder a sus componentes de forma libre y gratuita, y los puede modificar y adaptar a las necesidades particulares del proyecto que esté desarrollando. Esto, unido a su eficacia, hace que, a día de hoy, siga siendo el sistema más empleado en Big Data.

Su sistema se basa en una arquitectura en la que hay un nodo maestro y varios nodos esclavos. El maestro dirige la operación, distribuyendo el trabajo entre los nodos pasivos. Cada uno de esos nodos procesa una parte de la data y devuelve la información extraída al servidor maestro.

Claves de Hadoop

Almacena y procesa enormes volúmenes de datos, que están en constante incremento.
Puede procesar datos estructurados (SQL) y no estructurados (NoSQL).
Además, puede hacerlo en tiempo real. La computación en paralelo permite distribuir el trabajo entre muchas máquinas que trabajan a la vez, lo que acelera la velocidad de procesamiento. Se trata de una herramienta muy eficiente.
Su coste es bajo.
Está hecho a prueba de errores. Hadoop está diseñado de tal forma que, si uno de los servidores secundarios falla, su trabajo se redirige automáticamente a otro. El esclavo puede llegar sencillamente a los datos, ya que están replicados en el HDFS, el sistema de almacenamiento de Hadoop. Así, todos los nodos tienen acceso a ellos.
Es fácilmente escalable. Si incrementan las necesidades de procesamiento, se solventan de forma sencilla, añadiendo nuevos nodos.

TAGS:

Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.