PySpark
Data

PySpark

¿Qué es PySpark?

PySpark es la API Python de Apache Spark, que permite usar todo el motor de procesamiento distribuido Spark desde código Python idiomático. Incluye SparkSession como punto de entrada principal, DataFrames con API muy similar a Pandas pero distribuida sobre cluster, Spark SQL, Spark MLlib (machine learning distribuido), Structured Streaming (procesamiento de streams con misma API DataFrame), GraphFrames (grafos) y Pandas UDFs (funciones vectorizadas con Arrow). Desde 2020 soporta Pandas API on Spark (antes Koalas), que permite ejecutar código Pandas puro escalado a cluster sin aprender la API específica de PySpark. Es la forma más popular de escribir pipelines Spark en producción, ampliamente más adoptada que Scala Spark por la mayor disponibilidad de talento Python en data. Se ejecuta sobre Databricks, EMR, Synapse, Dataproc, Kubernetes o standalone. Su catalyst optimizer y Tungsten execution engine generan planes eficientes incluso desde código Python de alto nivel.

¿Por qué aprender PySpark?

PySpark es habilidad estrella en data engineering moderno. Aparece en casi todas las ofertas de Data Engineer, Big Data Engineer, ML Engineer con datos a escala en España. Los sueldos son top: 45.000-80.000 euros según seniority, por encima de 90.000 en arquitectos de datos. Combinar PySpark con Databricks y Delta Lake te posiciona para roles excelentes en empresas data-driven (BBVA, Santander, Telefónica, Inditex, Mercadona, Cabify, Glovo). Cada vez más empresas migran ETL desde SSIS/Informatica a PySpark moderno.

Formaciones que enseñan PySpark(1)

Preguntas frecuentes sobre PySpark