Análisis masivo de datos: los proyectos Yahoo! Pig y Google Sawzall

Hola,

Cuentan en el artículo Pig into Incubation at the Apache Software Foundation que Yahoo! ha decidido incluír el proyecto Pig en el programa de incubación de Apache Software Foundation.

El proyecto Pig es un proyecto de Yahoo! destinado al análisis masivo de datos, mediante un lenguage de alto nivel que permite a los desarrolladores elaborar cómodamente programas para la minería de datos. Mediante Pig, estos programas pueden ser ejecutados en procesos paralelos, lo que hace que Pig sea idóneo, tal y como comentábamos, para el data mining masivo de datos, aprovechando los principios de la computación distribuída y el parallel processing.

hadoop

Los análisis masivos de datos se fundamentan en algo más que el proceso paralelo. También es necesario que el tratamiento de datos se haga con modelos reductores, ya que cuanto menos información se procese, mejor es el rendimiento computacional. Es aquí donde podemos acordarnos de Hadoop, una parte de Lucene, y que viene a ser una plataforma para ejecutar aplicativos de tratamiento masivo de datos. Hadoop es software libre, y emplea un modelo reductor llamado MapReduce, un desarrollo de Google Labs.

Esta tecnología de Google es la que da soporte a Sawzall, un proyecto similar a Pig, y que también sirve para análisis en paralelo de datos masivos. Si queréis más datos de Sawzall, podéis echar un ojo a Interpreting the Data: Parallel Analysis with Sawzall.

Por último, comentar que Microsoft Research tiene su propio proyecto de análisis masivo, al que han llamado Dryad. Como resulta fácil imaginar, Microsoft concibe a Dryad para que opere con Windows Server y SQL Server, y no deja de ser curioso como una vez más, en vez de mirar por lo que ellos hacen, se les llena la boca con lo que hacen los demás:

It completely subsumes other computation frameworks, such as Google’s map-reduce

Si tenéis interés en saber más de Dryad, echad un ojo a Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks

En definitiva: los gigantes parece que tienen claro cómo gestionar sus procesos de análisis masivo de datos, y el software libre cobra aquí un especial protagonismo. Tenéis más información en el blog de José Manuel Suárez.

Un saludo,

Disponible el libro Handbook of Applied Cryptography para su descarga gratuíta.

Una grata noticia, sin duda. No es un libro nuevo, ya que data de 1996, pero sin duda, es de lo mejorcito que se puede encontrar en la bibliografía sobre Croptografía existente en la actualidad.

applied criptography

Ya podéis descargar este sensacional libro titulado The Handbook of Applied Cryptography (ISBN: 0-8493-8523-7). Los contenidos son los siguientes:

  • Capítulo 1 – Overview of Cryptography
  • Capítulo 2 – Mathematics Background
  • Capítulo 3 – Number-Theoretic Reference Problems

  • Capítulo 4 – Public-Key Parameters

  • Capítulo 5 – Pseudorandom Bits and Sequences

  • Capítulo 6 – Stream Ciphers

  • Capítulo 7 – Block Ciphers

  • Capítulo 8 – Public-Key Encryption

  • Capítulo 9 – Hash Functions and Data Integrity

  • Capítulo 10 – Identification and Entity Authentication

  • Chapter 11 – Digital Signatures

  • Capítulo 12 – Key Establishment Protocols
  • Capítulo 13 – Key Management Techniques
  • Capítulo 14 – Efficient Implementation
  • Capítulo 15 – Patents and Standards
  • Apéndice – Bibliography of Papers from Selected Cryptographic Forums
  • Referencias
  • Índice

Teniendo en cuenta que su precio de venta era de $79.95 hasta no hará mucho, es de agradecer que los autores hayan liberado el texto para que podamos hacernos con él gratuítamente. Todo un detalle.

Vía: Xavi Caballé