Question 1

¿Qué diferencia hay entre Spark y Hadoop MapReduce?

Accepted Answer

Spark procesa datos en memoria, evitando escrituras intermedias a disco que lastran MapReduce. Para el mismo job iterativo o interactivo, Spark es 10-100 veces más rápido. Hadoop MapReduce está prácticamente obsoleto para nuevos proyectos desde 2018.

Question 2

¿PySpark o Scala Spark?

Accepted Answer

PySpark es el más usado hoy por la adopción masiva de Python en data. Scala Spark ofrece mejor rendimiento en ciertos casos y acceso temprano a APIs nuevas, pero supone barrera de entrada mayor. Aprender ambos es útil pero empieza por PySpark.

Question 3

¿Cómo se despliega Spark en producción?

Accepted Answer

Principalmente sobre Kubernetes, YARN en clusters Hadoop o en plataformas gestionadas como Databricks, Azure Synapse, AWS EMR o Google Dataproc. Las plataformas gestionadas evitan la complejidad operativa y son las opciones preferidas en empresas grandes.

Question 4

¿Qué es Delta Lake?

Accepted Answer

Delta Lake es una capa de almacenamiento de código abierto sobre Parquet que añade transacciones ACID, time travel, versionado y upserts a data lakes. Se integra nativamente con Spark y es el formato recomendado por Databricks para lakehouses modernos.

Question 5

¿Sigue siendo relevante MLlib con la existencia de scikit-learn o PyTorch?

Accepted Answer

Para datasets enormes que no caben en una máquina, MLlib sigue siendo relevante porque escala horizontalmente. Para datasets medianos que caben en memoria, scikit-learn es más rico en algoritmos; para deep learning, PyTorch o TensorFlow son la opción natural.

Apache Spark

¿Qué es Apache Spark?

¿Por qué aprender Apache Spark?

Formaciones que enseñan Apache Spark(5)

Máster en Data Science e Inteligencia Artificial

Máster Online en Data Science, Big Data y Desarrollo de Inteligencia Artificial

Máster en Data Analyst

Máster en Data Engineering, Cloud & Big Data

Curso de Scala desde Cero

Preguntas frecuentes sobre Apache Spark