Parece que uno de los proyectos que han tenido bastante éxito en la OSCON 2007 ha sido Hadoop, un subproyecto de Apache Lucene que implementa el conocido algoritmo de MapReduce utilizando su propio sistema de ficheros distribuido.
Tim O'Reilly ha publicado un extenso artículo sobre esta librería y la importancia de que Yahoo esté detrás de ella. En particular destaca la importancia de que Yahoo escoja el camino de contribuir al Open Source y respaldar proyectos exitosos como Lucene como base para las herramientas que utiliza, en lugar de seguir el camino de hacer desarrollos internos, que es el aparente camino que sigue Google (no quita que haya liberado interesantes frameworks).
Aún así el creador de Lucene y Hadoop, y ahora empleado de Yahoo, Doug Cutting, destaca que Hadoop no está limitado a la búsqueda ni tiene porque ser ese el escenario en el que rinde mejor:
"Where Hadoop really shines, is in data exploration." Many problems, including tuning ad systems, personalization, learning what users need -- and for that matter, corporate or government data mining -- involve finding signal in a lot of noise.
Y el artículo termina con un ejemplo de como utilizar MapReduce para afrontar la explotación de ficheros de log gigantescos.
El caso es que en la Yahoo Developer Network han publicado las charlas, powerpoints, video y audio de la presentación realizada en la OSCON y una entrada antes también hablan sobre la evolución del proyecto.
High Availability ofrecía un análisis hace poco sobre este producto. Y bueno, en casi todas estas fuentes referencian al artículo de Julio sobre como integrar Hadoop con Amazon Web Services.
Desde luego, parece que suena bastante. Por cierto, ¿a alguien le interesa jugar con Hadoop y Amazon? Un proyecto realmente interesante sería integrarlo con Apache Jackrabbit de forma que pudieses almacenar contenido de cualquier repositorio en un sistema de ficheros distribuido, como por ejemplo el de Hadoop, y que a su vez se volcase en un servicio como Amazon S3. Y además sería una contribución espectacular para jLibrary :D
Suscribirse a:
Enviar comentarios (Atom)
Subscríbete al feed
Regístrate con Feedburner y recibirás por email todas las novedades
Comentarios Recientes
Recent Comments
Etiquetas
- programación (190)
- Arquitectura (90)
- java (78)
- Otros (76)
- empresa (62)
- sistemas (61)
- escalabilidad (56)
- agile (54)
- emprendedores (48)
- Irlanda (42)
- Open Source (31)
- google (27)
- empleo (26)
- humor (24)
- amazon (22)
- eventos (22)
- metodologías (22)
- fun (21)
- rendimiento (21)
- software (21)
- dublin (20)
- testing (18)
- startups (17)
- galicia (15)
- hadoop (15)
- spring (15)
- datacenter (14)
- seguridad (14)
- unit testing (14)
- web 2.0 (14)
- cloud computing (13)
- grails (13)
- jobsket (13)
- libros (13)
- Ingeniería (12)
- eclipse (12)
- facebook (12)
- bases de datos (11)
- virtualización (11)
- yahoo (11)
Archivo de Entradas
-
►
2011
(58)
- ► septiembre (5)
-
►
2009
(61)
- ► septiembre (3)
-
►
2008
(129)
- ► septiembre (11)
-
▼
2007
(217)
- ► septiembre (17)
-
▼
agosto
(16)
- Sobre la arquitectura de eBay
- Operaciones aritméticas y strictfp
- Sobre la caida de Skype
- Entrevista a Joel Sposky
- De vuelta de vacaciones
- Cerrado por vacaciones
- ArcCast.TV y La arquitectura de PlentyOfFish
- Hadoop, su "competencia", y un poco de verguenza a...
- Tus vecinos, los del Open Source
- Un servidor poco habitual: PS3
- Dentro de los datacenters de eBay y Amazon
- Hadoop toma protagonismo
- Microsoft planea un datacenter de 500 millones de ...
- El arquitecto "porque lo he leido"
- Los usuarios reconocen el valor de las comunidades...
- Categorías en IT dentro de Irlanda (y otros países)
Mi CV
Cosas que leo
List
También tenemos una tienda de Colchones y Sofás en Betanzos
comments
4 Respuestas a "Hadoop toma protagonismo"22:09
Suena interesante!
¿podría llegar a ser algo como Autonomy IDOL? Este sí que debe ser un producto realmente espectacular extrayendo información de datos no estructurados.
8:54
Joserra, pues no creo que sea ese su objetivo.
No conocía Autonomy IDOL, gracias por el enlace, pero parece como un ejemplo de super-aplicación que se construiría sobre Hadoop. Yo creo que Hadoop seguirá más orientado al aspecto de infraestructura y dejará que las aplicaciones que lo utilicen sean las que manejen/exploten los datos.
9:34
Hablando de Doug Cutting, creo que dónde dices Google querías decir Yahoo, porque leyendo el artículo que enlazas dice "Yahoo's involvement wasn't actually news either, because Yahoo! had hired Doug Cutting, the creator of hadoop, back in January."
9:56
Vicente,
Gracias por la nota, tienes toda la razón. Ya lo he corregido. Me ha traicionado el Google del párrafo anterior.
Publicar un comentario