Apache Hadoop es la nueva plataforma que tienen las empresas para almacenar y analizar sus datos. Es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre, diseñado por el arquitecto de Cloudera, Doug Cutting, que permite el procesamiento en paralelo de grandes cantidades de datos, en servidores sin tantos requerimientos.
En este mundo hiperconectado, en donde las empresas y personas generan datos exponencialmente, Hadoop tiene a ventaja de crecer de manera escalable, armoniosa y sin límites, llegando a poder configurar miles de servidores en pocos minutos (antes llevaba meses)
Hadoop es un proyecto de alto nivel de Apache que está siendo construido y usado por una comunidad global de contribuidores, mediante el lenguaje de programación Java. Yahoo! ha sido el mayor contribuidor al proyecto y usa Hadoop extensivamente en su negocio. Otros proyectos que también utilizan Hadoop son: Facebook, eBay, Twitter, LinkedIn, IBM, Meebo, etc.
Arquitectura
Hadoop se distribuye como un paquete de software principal, llamado The Hadoop Common en formato .jar y todos los scripts, códigos fuente y documentación necesarios para correr a aplicación independientemente.
Una característica fundamental que tiene Hadoop es que cada sistema de archivos debe conocer o proporcionar su ubicación física ( Nombre del rack/Switch) donde está cada nodo trabajador.
Un clúster típico Hadoop incluye un nodo maestro( jobtracker, tasktracker, namenode y datanode) y múltiples nodos esclavo (compute node o nodo de cómputo).
Hadoop puede reducir el tráfico de la red troncal eligiendo ejecutar las aplicaciones en el nodo donde están los datos, o dentro del mismo rack/switch. También se utiliza esta caracterísctica de conocer donde están los datos, para prevenir accidentes (por cortes de energía) en los backups de datos y conservar copias de los datos en distintas áreas o racks.
Acuerdo entre HP y Cloudera
Dentro del acuerdo de desarrollo y licencia efectuados por las dos compañías, se comprometen a mantener su esquema de código abierto que simplifica el manejo y acelera el desarrollo de nuevos clústers Hadoop. Los clientes podrán comprar la plataforma Cloudera directamente a través de HP o en la solución llamada HP AppSystem for Apache Hadoop.
Este acuerdo posibilita cargar las soluciones de HP y Cloudera directamente desde fábrica en los equipos HP, eliminando todas las complejidades de instalación, implementación y manejo del clúster de Hadoop. Esto ayudará a las empresas a manejar esta creciente cantidad de información (petabytes) y liberarlas para otras tareas más fructíferas. La configuración del hardware, está basada en el paradigma de Convergencia de Infraestructuras. #Converged Infrastructure
[fuente: Wikipedia]