Big Data

5 proyectos de Google que han dado un vuelco al Big Data

Síguenos en:

Google ha desarrollado multitud de soluciones para sus productos, muchas de estas soluciones internas se han convertido en proyectos de código abierto.

Por Redacción España, el 08/11/2019

¿Te ha gustado nuestro artículo? ¡Vota!

El éxito de Google va íntimamente ligado al Big Data y a la Inteligencia Artificial. Desde sus orígenes, la compañía ha sabido aprovechar las bondades de ambas disciplinas, piezas fundamentales en su desarrollo hasta convertirse en el gigante que es ahora.

Es un círculo vicioso. Empresa y tecnologías han crecido juntos: a sabiendas de su potencial, Google ha hecho una fuerte apuesta en i+D. Esto ha derivado en la consolidación del negocio, pero, además, también ha desembocado en unos avances de los que nos beneficiamos todos.

Para satisfacer sus propias necesidades, Google ha llevado a cabo desarrollos que se han extendido más allá de sus límites. Muchas de sus soluciones internas se han convertido en proyectos de código abierto que ahora son la base del ecosistema Hadoop.

En este post destacamos cinco proyectos de Google que han cambiado el panorama del Big Data para siempre.

Google File System (GFS)

Muchos teóricos del Big Data sitúan el origen de esta disciplina en el año 2003, cuando Howard Gobioff, Shun-Tak Leung y Sanjay Shemawat publicaron The Google Fyle System. Se trata de un estudio sobre el sistema homónimo (sus siglas, GFS) de ficheros distribuidos ideado como respuesta a las necesidades de almacenamiento de Google.

Google MapReduce

Uno de los primeros retos de Google fue descubrir cómo indexar el inmenso contenido de la web. Para resolverlo, inventó un nuevo estilo de procesamiento de datos conocido como MapReduce, del que ya hablamos en el blog de B12 Admark ("Qué es Mapreduce").

Se trata de un modelo de programación lanzado en 2004 cuya gran novedad radicaba en la computación en paralelo: varios servidores procesan data a la vez, lo que implica más capacidad para realizar el tratamiento de grandes volúmenes de datos estructurados y no estructurados en menos tiempo.

Un servidor maestro recibe los datos y los deriva a distintos servidores esclavos, que cumplen sus órdenes. De este modo, Google consigue realizar el procesamiento de toda la información rastreada en la web de forma rápida y a un coste razonable.

¿Cómo cambió MapReduce el Big Data? Con el procesamiento en paralelo en sí. A raíz de la solución de Google, se desarrollaron herramientas de código abierto que seguían el mismo modelo. La más importante, Apache Hadoop, el sistema de procesamiento más utilizado en Big Data.

Cloud BigTable

Como era de esperar, Google no se conformó con MapReduce. El mismo año del lanzamiento de su nuevo modelo de programación, la compañía comenzó el desarrollo de Cloud Bigtable, dentro de GFS. Se trata de un sistema de BBDD NoSQL que permite el almacenamiento cloud.

Clod BigTable es considerado por los expertos como el antecesor de HBase, Apache Cassandra y otros software NoSQL distribuidos.

Google Cloud

Hemos hablado del procesamiento de grandes volúmenes de datos, pero, antes de llegar a ese punto, el Big Data se enfrenta a otro reto, también relacionado con la enorme cantidad de data que maneja: el almacenamiento.

Como ya te explicábamos en este post sobre qué es Big Data, el nacimiento de soluciones de almacenamiento en la nube supuso un antes y un después para esta disciplina.

Antes de los entornos cloud, los grandes sistemas de bases de datos tenían un coste muy elevado y, además, ingestaban únicamente datos estructurados. ¿Qué significa esto? Que toda la información tenía que ser pretratada antes del almacenamiento.

La nube resuelve estos problemas: el coste de almacenamiento se reduce considerablemente y hay cabida para datos estructurados, no estructurados y semiestructurados.

En este contexto, surge Google Cloud que, además de dar estas ventajas, ofrece un modelo de consumo: las empresas no tienen que hacer ningún tipo de inversión inicial, solo pagan por los servicios de infraestructura y software.

BigQuery

Forma parte de las soluciones de Google Cloud y otorga grandes ventajas a las empresas. BigQuery es, de acuerdo con la propia compañía, "un almacén de datos" para las compañías que tiene "funciones integradas como el aprendizaje automático, el análisis geoespacial y la inteligencia empresarial".

Es un almacén de bajo coste, autónomo, que no requiere un servidor y que ofrece una gran escalabilidad y flexibilidad que permite realizar consultas "terabytes en segundos y petabytes en minutos". No hablamos solo de una herramienta de almacenamiento, también de consulta y de análisis de datos.

TAGS:

Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.