Big Data

Qué es MapReduce y cómo influyó en el Big Data

Síguenos en:

MapReduce es una herramienta de Google que marcó un punto de inflexión en Big Data. Te contamos qué es y las funciones que desempeña para facilitar el proceso de manejar un gran volumen de datos

Por Redacción España, el 08/10/2019

¿Te ha gustado nuestro artículo? ¡Vota!

MapReduce es una herramienta de Google que marcó un punto de inflexión en Big Data. Los sistemas de inteligencia de datos previos a su irrupción, enmarcados dentro del Business Intelligence, no tenían capacidad para manejar las ingentes cantidades de datos que proporcionaba el entorno digital, ni para almacenarlas ni para procesarlas.

El campo del almacenamiento avanzó con las soluciones cloud. El del procesamiento cambió radicalmente con MapReduce. Te explicamos qué es y la importancia de su influencia en Big Data.

Qué es el procesamiento de datos

Los datos se recaban y se almacenan. Sin embargo, no tienen significado por sí mismos. El procesamiento es el proceso (valga la redundancia) por el cual los datos se agrupan, se cruzan, se analizan y se convierten en información relevante.

Por ejemplo, que una persona interactúe con una web haciendo clic en un botón en concreto no significa nada, pero que lo hagan muchas personas con las mismas características sociodemográficas (mismo género, edad, estado civil, cargo laboral, etcétera) nos revela una información muy relevante en el terreno de las ventas: un target o público objetivo.

En los albores del Big Data, no existían herramientas con capacidad para procesar tantas variables, y las pocas que había tenían unos costes que las convertían en prohibitivas para empresas de tamaño mediano y pequeño. Es en este contexto donde MapReduce marcó un antes y un después.

Qué es MapReduce

MapReduce es un framework, un modelo de programación que Google lanzó en el año 2004. Lo realmente innovador en este caso es que permite realizar computación en paralelo. Explicado de forma sencilla, en lugar de realizar el procesamiento desde una única máquina, distribuye las enormes cantidades de datos entre varios servidores que los procesan al unísono.

Para ello, por cada cluster existente, MapReduce cuenta con:

Un servidor principal, el maestro, el que distribuye los datos que recibe.
Varios servidores secundarios, los esclavos, los que procesan esos datos a la vez, siguiendo las órdenes del servidor maestro.

Este sistema reduce exponencialmente el tiempo en el que se desarrolla el procesamiento de datos. Es el equivalente a tener a una sola persona desempeñando una labor o tener un equipo de trabajo, con un jefe que recibe las tareas y las distribuye entre sus subordinados.

Cómo surgió MapReduce

MapReduce surgió para cubrir una necesidad de Google: optimizar los resultados de las búsquedas de los usuarios. El gigante rastrea todo e internet e indexa las páginas que hay. El index, al final, es como una enorme biblioteca donde Google aloja todos los datos de todas las webs.

El siguiente paso es organizar la biblioteca. Es decir, esos datos requieren un procesamiento, a través de algoritmos que deciden qué posición ocupa cada página en el ranking de resultados para cada búsqueda: el Page Rank.

En su momento, Google se enfrentaba a otro problema, además del de cómo procesar el volumen de datos: el sistema tenía que conllevar un coste razonable, de modo que fuera rentable para la empresa. Jeffrey Dean y Sanjay Ghemawat fueron los ingenieros encargados de dirigir el proyecto de desarrollo de esta solución.

Cómo MapReduce cambió el procesamiento de datos

Esta solución que nació para dar respuesta a una necesidad específica de Google era extrapolable a otras aplicaciones. A partir de MapReduce, se desarrollaron otras versiones open source.

El 1 de abril de 2006, Mike Cafarella y Doug Cutting lanzaron Apache Hadoop, una implementación de MapReduce que marcó un antes y un después en la historia del Big Data y que, a día de hoy, sigue siendo el sistema de procesamiento más empleado en este campo.

Por tanto, MapReduce se considera la semilla del procesamiento en paralelo, la base del procesamiento en paralelo, que propició la gestión de grandes volúmenes de datos, con el añadido de que esos datos podían ser tanto estructurados como no estructurados.

TAGS:

Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.