Question 1

¿Hadoop sigue siendo relevante en 2025?

Accepted Answer

Sí, pero principalmente en mantenimiento y evolución de sistemas existentes, no en proyectos greenfield. Grandes corporaciones españolas siguen operando clusters Hadoop, y muchos se están migrando a arquitecturas lakehouse en cloud. Los skills de Hadoop son valorados en esos procesos de migración y modernización.

Question 2

¿MapReduce o Spark?

Accepted Answer

Spark. MapReduce está prácticamente obsoleto para nuevos jobs desde 2018, por performance inferior (disco entre stages) y API mucho menos ergonómica. Spark se ejecuta encima de YARN o Kubernetes y aprovecha HDFS o S3 como storage. Aprender MapReduce solo tiene sentido para mantener código legacy.

Question 3

¿Qué es HDFS y por qué importa?

Accepted Answer

Hadoop Distributed File System: sistema de ficheros distribuido tolerante a fallos, replica bloques entre nodos (factor 3 por defecto). Fue revolucionario para data lakes masivos on-premise. En cloud, servicios como S3, Azure Data Lake Gen2 o GCS lo reemplazan con coste y operativa mucho más simples.

Question 4

¿Cloudera o Hortonworks?

Accepted Answer

Son las distribuciones comerciales históricas de Hadoop. Se fusionaron en 2019, y el producto unificado se llama Cloudera Data Platform (CDP). Incluye Hadoop, Spark, Impala, Kafka, HBase, Ranger (seguridad), Atlas (gobierno) y otros. Muchas empresas grandes españolas tienen contratos activos con Cloudera.

Question 5

¿Vale la pena aprender Hadoop hoy?

Accepted Answer

Para trabajar en banca, telco, energía y administraciones grandes con sistemas legacy, sí: hay demanda y poca gente lo sabe bien. Para startups y scaleups modernas, es mejor invertir en Spark sobre Databricks, BigQuery, Snowflake y arquitecturas cloud-native, que es donde están los proyectos nuevos.

Hadoop

¿Qué es Hadoop?

¿Por qué aprender Hadoop?

Formaciones que enseñan Hadoop(3)

Máster en Data Analyst

Máster en Big Data

Máster en Data Science y Big Data

Preguntas frecuentes sobre Hadoop