Análisis masivo de datos: los proyectos Yahoo! Pig y Google Sawzall

Hola,

Cuentan en el artículo Pig into Incubation at the Apache Software Foundation que Yahoo! ha decidido incluír el proyecto Pig en el programa de incubación de Apache Software Foundation.

El proyecto Pig es un proyecto de Yahoo! destinado al análisis masivo de datos, mediante un lenguage de alto nivel que permite a los desarrolladores elaborar cómodamente programas para la minería de datos. Mediante Pig, estos programas pueden ser ejecutados en procesos paralelos, lo que hace que Pig sea idóneo, tal y como comentábamos, para el data mining masivo de datos, aprovechando los principios de la computación distribuída y el parallel processing.

hadoop

Los análisis masivos de datos se fundamentan en algo más que el proceso paralelo. También es necesario que el tratamiento de datos se haga con modelos reductores, ya que cuanto menos información se procese, mejor es el rendimiento computacional. Es aquí donde podemos acordarnos de Hadoop, una parte de Lucene, y que viene a ser una plataforma para ejecutar aplicativos de tratamiento masivo de datos. Hadoop es software libre, y emplea un modelo reductor llamado MapReduce, un desarrollo de Google Labs.

Esta tecnología de Google es la que da soporte a Sawzall, un proyecto similar a Pig, y que también sirve para análisis en paralelo de datos masivos. Si queréis más datos de Sawzall, podéis echar un ojo a Interpreting the Data: Parallel Analysis with Sawzall.

Por último, comentar que Microsoft Research tiene su propio proyecto de análisis masivo, al que han llamado Dryad. Como resulta fácil imaginar, Microsoft concibe a Dryad para que opere con Windows Server y SQL Server, y no deja de ser curioso como una vez más, en vez de mirar por lo que ellos hacen, se les llena la boca con lo que hacen los demás:

It completely subsumes other computation frameworks, such as Google’s map-reduce

Si tenéis interés en saber más de Dryad, echad un ojo a Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks

En definitiva: los gigantes parece que tienen claro cómo gestionar sus procesos de análisis masivo de datos, y el software libre cobra aquí un especial protagonismo. Tenéis más información en el blog de José Manuel Suárez.

Un saludo,

Entrada relacionada