martes, agosto 07, 2007

Hadoop toma protagonismo

martes, agosto 07, 2007 por Martín

Parece que uno de los proyectos que han tenido bastante éxito en la OSCON 2007 ha sido Hadoop, un subproyecto de Apache Lucene que implementa el conocido algoritmo de MapReduce utilizando su propio sistema de ficheros distribuido.

Tim O'Reilly ha publicado un extenso artículo sobre esta librería y la importancia de que Yahoo esté detrás de ella. En particular destaca la importancia de que Yahoo escoja el camino de contribuir al Open Source y respaldar proyectos exitosos como Lucene como base para las herramientas que utiliza, en lugar de seguir el camino de hacer desarrollos internos, que es el aparente camino que sigue Google (no quita que haya liberado interesantes frameworks).

Aún así el creador de Lucene y Hadoop, y ahora empleado de Yahoo, Doug Cutting, destaca que Hadoop no está limitado a la búsqueda ni tiene porque ser ese el escenario en el que rinde mejor:


"Where Hadoop really shines, is in data exploration." Many problems, including tuning ad systems, personalization, learning what users need -- and for that matter, corporate or government data mining -- involve finding signal in a lot of noise.


Y el artículo termina con un ejemplo de como utilizar MapReduce para afrontar la explotación de ficheros de log gigantescos.

El caso es que en la Yahoo Developer Network han publicado las charlas, powerpoints, video y audio de la presentación realizada en la OSCON y una entrada antes también hablan sobre la evolución del proyecto.

High Availability ofrecía un análisis hace poco sobre este producto. Y bueno, en casi todas estas fuentes referencian al artículo de Julio sobre como integrar Hadoop con Amazon Web Services.

Desde luego, parece que suena bastante. Por cierto, ¿a alguien le interesa jugar con Hadoop y Amazon? Un proyecto realmente interesante sería integrarlo con Apache Jackrabbit de forma que pudieses almacenar contenido de cualquier repositorio en un sistema de ficheros distribuido, como por ejemplo el de Hadoop, y que a su vez se volcase en un servicio como Amazon S3. Y además sería una contribución espectacular para jLibrary :D

comments

4 Respuestas a "Hadoop toma protagonismo"
Joserra dijo...
22:09

Suena interesante!
¿podría llegar a ser algo como Autonomy IDOL? Este sí que debe ser un producto realmente espectacular extrayendo información de datos no estructurados.


Martín dijo...
8:54

Joserra, pues no creo que sea ese su objetivo.

No conocía Autonomy IDOL, gracias por el enlace, pero parece como un ejemplo de super-aplicación que se construiría sobre Hadoop. Yo creo que Hadoop seguirá más orientado al aspecto de infraestructura y dejará que las aplicaciones que lo utilicen sean las que manejen/exploten los datos.


Unknown dijo...
9:34

Hablando de Doug Cutting, creo que dónde dices Google querías decir Yahoo, porque leyendo el artículo que enlazas dice "Yahoo's involvement wasn't actually news either, because Yahoo! had hired Doug Cutting, the creator of hadoop, back in January."


Martín dijo...
9:56

Vicente,

Gracias por la nota, tienes toda la razón. Ya lo he corregido. Me ha traicionado el Google del párrafo anterior.