martes, febrero 19, 2008

Yahoo! despliega en producción la mayor aplicación basada en Hadoop

martes, febrero 19, 2008 por Martín


Justamente hace un rato que Yahoo! ha anunciado el despliegue en producción de la aplicación más importante desarrollada con Hadoop hasta el momento.

Se trata de Yahoo! WebMap una aplicación que se ejecuta sobre un cluster Linux de más de 10.000 núcleos y que se utiliza desde ahora mismo en cualquier búsqueda que se haga en la web de Yahoo. Aquí está como lo describen en el blog:

The Webmap build starts with every Web page crawled by Yahoo! and produces a database of all known Web pages and sites on the internet and a vast array of data about every page and site. This derived data feeds the Machine Learned Ranking algorithms at the heart of Yahoo! Search.


Las estadísticas que proporcionan son de vértigo (traduzco):
  • Número de links: un trillón, aproximádamente.
  • Tamaño de la salida: 300 Tb, comprimidos.
  • Número de núcleos utilizados para ejecutar ún único trabajo map-Reduce: sobre 10.000
  • Espacio en disco utilizado en el cluster de producción: 5 Petabytes.


Mucha más información en la entrada en el blog de Yahoo!. Creo que nos ha quedado a todos definitivamente claro que Hadoop es apto para producción :-)

comments

0 Respuestas a "Yahoo! despliega en producción la mayor aplicación basada en Hadoop"