Procesamiento masivo de datos con Hadoop Live CD

Hola,

Acabo de leer en OSNews que se ha liberado recientemente Hadoop Live CD.

En auditoría hay un tipo de análisis fundamental que tiene que ver con el procesamiento masivo de datos, que suele tener dos vertientes: verificación de integridad y/o cruce de datos entre dos fuentes y el análisis de una única fuente de datos. Este es un mercado copado por las soluciones de pago, como por ejemplo ACL, que se ha ido convirtiendo con el paso del tiempo en un estándar de facto en el campo del audit analytics, especialmente en los trabajos de auditoría donde el volumen de datos es pequeño o medio, y donde se trabaja con procesamiento local de información con volúmenes no superiores a gigabytes (y preferiblemente, con pocos GBs)

Hadoop puede ofrecer una alternativa al procesamiento masivo de datos mucho más allá del análisis de auditoría que hemos comentado, cuyo principal handicap suele ser la limitación de tamaño, condicionada frecuentemente por el diseño de las soluciones comerciales y por las limitaciones de los gestores de bases de datos. El funcionamiento de este tipo de aplicaciones de escritorio depende además de la capacidad de procesamiento de un portátil o equipo de sobremesa, ya que si quieres vender una solución comercial, lo primero que necesitas es que funcione en un equipo corriente y moliente. Salvo muy raras excepciones, este tipo de programas está concebido para el corto y el medio alcance, siendo recomendable que los juegos de datos estén segmentados para poder optimizar e incluso posibilitar el análisis. Si vamos a analizar, por ejemplo, la integridad de una tabla de cuentas personales en DB2, ¿para qué necesitamos toda la descarga completa del DB2? Con una porción es suficiente, y con unos pocos GBs o incluso MBs, un equipo portátil con una solución de pequeño y medio alcance, es factible completar el trabajo.

Pero cuando la cosa no va de gigabytes, sino de terabytes o petabytes, necesitamos procesamiento profesional, fiable, muy escalable y que además, proporcione eficiencia. Gracias a Hadoop, el análisis de información en nodos distribuidos de cantidades ingentes es una realidad plausible, aprovechando los modelos map and reduce, para segmentar juegos de datos de gran tamaño y poder ubicarlos de un modo fraccionado en un clúster de análisis, en que pueden ubicarse máquinas de distinta potencia indistintamente.

Hadoop es un Live CD que corre sobre OpenSolaris, y que no precisa instalación para ser ejecutado. Tenéis mas detalles en la release note.

Un saludo,