miércoles, febrero 02, 2011

Retrospectiva sobre Hadoop y el Open Source

miércoles, febrero 02, 2011 por Martín

Eric Baldeschwieler, VP Hadoop Development en Yahoo, analiza en el blog de desarrolladores de Yahoo como ha sido la evolución de Hadoop durante sus cuatro años de vida y como ha influido la decisión de haberlo hecho Open Source en lugar de mantenerlo como un proyecto privado. ¿Fue una buena decisión?

La verdad es que atendiendo a sus comentarios parece que fue la mejor decisión que pudieron haber tomado. Yahoo nace en el 2006 y en su momento pensaron que no podía ser un producto de demasiado interés para sus competidores así que decidieron hacerlo Open Source simplemente para que se crease una comunidad de usuarios con itnereses relacionados. Con el tiempo todas sus expectativas se han disparado:


  • Reclutar científicos de primer nivel: Con un sistema de 40000 servidores (más de 300.000 cores) dedicados a Hadoop, se ha convertido en su núcleo de investigación: anuncios, spam, recomendaciones, etc. Estos recursos y la cantidad de datos que maneja Yahoo les permite disponer de un campo de entrenamiento brutal en cuanto a investigación.

  • Recursos para construir herramientas basadas en Hadoop: Aparecen herramientas como Hbase o Hive que son fenomenales y que no han tenido que hacer ellos. Son contribuciones de la comunidad. Ahorro de costes.

  • Acceso a personal ya entrenado y colaboraciones: El coste de entrenamiento se reduce cuando en el mercado ya dispones de personal que conoce Hadoop, está familiarizado con la herramienta y la ha utilizado previamente. En cuanto a colaboraciones, ya han comprado una compañía (dapper.net) basada en Hadoop y parece que la mitad de las startups de Silicon Valley utilizan o Hadoop o Hbase de algún modo, lo que abre enormes vías de colaboración

  • Evitar quedarse obsoletos: Si hubiesen mantenido Hadoop en privado, estarían esperando al próximo estándar. En su lugar, Hadoop se convierte en estándar con soporte de compañías como Amazon o IBM. ¿Puede haber una mejor inversión?

  • Sentirse bien consigo mismos: Una razón interesante que argumenta que según las estadísticas la comunidad crece y los casos de uso son algunos sorprendentes y relacionados con el aportar beneficio a las personas. Cita el ejemplo de que el 2% de los matrimonios de Estados Unidos los gestiona eHarmony y usan Hadoop. Bueno, esta razón digamos que es algo subjectiva. Habría que ver si los spammers o scammers por ejemplo no conocen también Hadoop pero no lo dicen :)



Creo que es muy importante el destacar la conclusión de que si Hadoop no fuese Open Source nada de esto habría sucedido. Sería una tecnología propietaria de la que pocos conocerían y a la que ellos mismos tendrían que formar a la gente que entrase en la empresa. No se innovaría, no se crearía riqueza alrededor de ese producto. La verdad es que parece claro que Hadoop es un gran caso de éxito para el mundo del Open Source. ¿Qué os parece?

comments

0 Respuestas a "Retrospectiva sobre Hadoop y el Open Source"