Hadoop
Data

Hadoop

¿Qué es Hadoop?

Apache Hadoop es el framework pionero de Big Data, lanzado en 2006 por Doug Cutting y Mike Cafarella, inspirado en los papers de Google File System y MapReduce. Durante más de una década fue el estándar de procesamiento distribuido de datos masivos. Consta de HDFS (Hadoop Distributed File System, almacenamiento distribuido), YARN (gestor de recursos cluster), MapReduce (motor batch original) y un ecosistema enorme de proyectos Apache complementarios (Hive para SQL sobre HDFS, HBase para NoSQL wide-column, Pig para scripting, Oozie para orquestación, Sqoop para ETL desde bases relacionales, Flume para logs, Zookeeper para coordinación). Desde 2015-2018, Spark ha desplazado a MapReduce como motor principal de procesamiento, pero HDFS y el ecosistema Hadoop siguen presentes en grandes corporaciones con clusters on-premise heredados, especialmente banca y telco. En cloud, data lakes sobre S3/Azure Blob y data warehouses modernos como Snowflake, BigQuery, Redshift y Databricks están sustituyendo progresivamente a Hadoop on-prem.

¿Por qué aprender Hadoop?

Hadoop sigue vivo en grandes empresas con inversiones on-premise: bancos (Santander, BBVA), telco (Telefónica), energéticas y administraciones públicas en España mantienen clusters Hadoop significativos. Aprenderlo te hace empleable inmediatamente en esos entornos, donde los perfiles con Cloudera, Hortonworks e HDFS son difíciles de encontrar y bien pagados (45.000-75.000 euros). Para nuevos proyectos, cloud-native (Databricks, Snowflake, BigQuery) es más recomendable, pero mantener data lakes Hadoop sigue generando mucho trabajo.

Formaciones que enseñan Hadoop(3)

Preguntas frecuentes sobre Hadoop