Diseño y arquitectura: Diseñar pipelines escalables sobre Databricks + Unity Catalog + ADLS Gen2 aplicando arquitectura Medallion (Bronze/Silver/Gold), con estrategias de particionado apropiadas al volumen y patrones de consulta.
Optimización Spark/PySpark: Optimizar pipelines productivos (shuffles, broadcasts, small files, cache), diagnosticar bottlenecks con Spark UI y planes de ejecución, y operar Databricks de forma costo-eficiente.
Código limpio y patrones: Escribir código modular, legible y testeable. Aplicar patrones de diseño con criterio donde aporten claridad. Cumplir PEP8 e implementar tests unitarios sobre lógica crítica.
Calidad y robustez: Automatizar ETL/ELT con data quality integrada sin degradar throughput. Implementar pipelines idempotentes (MERGE INTO, replaceWhere) y manejar SCD con join temporal correcto.
CI/CD y operación: Versionar código en GitHub con flujo profesional (feature branches, PRs, code review) y mantener pipelines CI/CD con GitHub Actions (linters, tests, validaciones).
Mentoría:Mentorizar a ingenieros junior con feedback técnico constructivo. Conducir code reviews que enseñen el "por qué". Mantener documentación robusta y proponer mejoras con evidencia.
Principales retos
- Procesar volúmenes crecientes sin que los costos en la nube se disparen
- Implementar data quality que no impacte la velocidad de procesamiento
- Escribir código que el equipo pueda mantener y extender en el tiempo
- Balancear contribución técnica directa con desarrollo del equipo junior