Question 1

¿PySpark o Pandas?

Accepted Answer

Pandas para datasets que caben en memoria de una máquina (GB). PySpark para datasets que requieren cluster (TB, PB). APIs son similares; PySpark tiene latencia mayor en jobs pequeños por overhead del cluster. Para análisis local, Pandas. Para procesar datos corporativos grandes con latencia aceptable, PySpark distribuido es imprescindible y no hay alternativa comparable.

Question 2

¿PySpark o Scala Spark?

Accepted Answer

PySpark es más popular por adopción masiva de Python en data y ML. Scala Spark tiene mejor rendimiento en casos específicos (UDFs sin overhead de serialización) y acceso temprano a APIs. Para la mayoría de equipos modernos, PySpark es la elección más pragmática. La diferencia de performance se ha reducido mucho con Pandas UDFs y Arrow.

Question 3

¿Qué es Pandas API on Spark?

Accepted Answer

Antes llamado Koalas, integrado en Spark 3.2+. Permite escribir código estilo Pandas que se ejecuta distribuido sobre cluster Spark. Útil para equipos que dominan Pandas y quieren escalar sin aprender DataFrames API nativo de Spark. No todo Pandas está soportado pero la mayoría de operaciones frecuentes sí, cubriendo pipelines típicos.

Question 4

¿PySpark escala verticalmente u horizontalmente?

Accepted Answer

Principalmente horizontalmente, añadiendo nodos worker al cluster que procesan particiones en paralelo. También aprovecha verticalmente los cores de cada nodo mediante tasks concurrentes. La clave es particionar bien los datos (suficientes partitions, balanceadas, sin skew) para aprovechar paralelismo completo evitando nodos hotspot que ralentizan todo el job.

Question 5

¿Dónde ejecutar PySpark en producción?

Accepted Answer

Databricks (gestionado, líder en cuota), AWS EMR, Azure Synapse, Google Dataproc, self-managed Kubernetes con Spark Operator. Para empezar a aprender: Google Colab + PySpark local, o Databricks Community Edition (gratuita limitada). En producción empresarial, Databricks domina claramente por ecosistema, UX y optimizaciones propietarias.

PySpark

¿Qué es PySpark?

¿Por qué aprender PySpark?

Formaciones que enseñan PySpark(1)

Máster en Big Data

Preguntas frecuentes sobre PySpark