PySpark Multi-Coud

$ 80.00

Responsable	Carlos Fierro
Última actualización	17/08/2023
Miembros	1

Curso
Reseñas

MÓDULO 1: Introducción y Preparación del Entorno en Databricks
- Introducción Teórica
- Big Data y Spark
- Procesamiento In-Memory
- Componentes de Spark
- Variables Distribuidas en un Clúster: RDD vs DATAFRAME
- Lenguajes de Programación para Spark: Scala vs Python vs R
- Despliegue de Clúster Spark
- Configuración a Repositorio de Datos
- Python como Lenguaje de Programación
- Infraestructura de Almacenamiento
- Infraestructura de Procesamiento
- Preparación de Clúster de Procesamiento
- Preparación de Clúster de Almacenamiento
- Programación de PySpark con SQL
MÓDULO 2: Procesamiento Funcional con Pyspark
- Programación Funcional
- Dataframes para Datos Estructurados y Semi-Estructurados
- Transformaciones y Operaciones en Dataframes
- Creación de Funciones Personalizadas con UDFs
- UDFs con Multi-Parámetros
- Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Avro
- Procesamiento en Pasos Encadenados
- Procesamientos en Pasos Separados
- Liberación de Memoria con el Garbage Collector
- Arquetipo de Procesamiento Funcional
MÓDULO 3: Implementación Delta Lake con Pyspark
- Arquitectura Data Lake y Delta Lake
- Taxonomía Delta Lake
- Definición de Capa BRONZE
- Definición de Capa SILVER
- Definición de Capa GOLD
- Lectura de Archivos JSON
- Lectura de Archivos XML
- Dataframes Semi-Estructurados
- Definición del Esquema de Formato Semi-Estructurado
- Patrón de Diseño de Modelamiento Semi-Estructurado
- Navegación de Campos Complejos
- Implementación de Reglas de Calidad
- Implementación de Modelamiento
MÓDULO 4: Tuning y Patrones de Diseño con Pyspark
- Arquetipo de Procesamiento sobre el Delta Lake
- Patrón de Diseño Show para evitar Re-Procesos
- Patrón de Checkpoint para evitar Colapso de Memoria RAM
- Patrón de Caché para reducir Tiempos de Procesamientos
- Aumentando el Nivel de Paralelización con Executors
- Optimización de JOINS
- Optimización de Modelamiento
- Arquetipo de Procesamiento Optimizado
- Definición de Reserva de Memoria según Capacidad del Clúster
- Reserva de Memoria RAM sobre la Sesión
- Gestión de Participaciones de los Dataframes
MÓDULO 5: Procesamiento Real-Time con Pyspark
- Arquitectura Real-Time y de Storm Data
- Kafka como Interfaz Estándar de Procesamiento
- Creación de Tópicos Real-Time
- Patrón Micro-Batch para Optimización de Ahorro de Tiempo en CPU
- Patrón de Diseño Producer: Read, Format & Write
- Patrón de Diseño Consumer: Read, Format, Enrichment & Process
- Patrón de Diseño para Emulación de Storm Data
- Pruebas de Volumetría
MÓDULO 6: Infraestructura Cloud para Pyspark Batch
- Sistemas de Archivos Distribuidos
- DBFS como Sistema de Archivos sobre Databricks
- Blob Storage como Sistema de Archivos sobre Azure
- S3 como Sistema de Archivos sobre AWS
- Cloud Storage como Sistema de Archivos sobre GCP
- Montado Remoto del Blob Storage con PySpark
- Montado Remoto del S3 con PySpark
- Montado Remoto del Cloud Storage con PySpark
MÓDULO 7: Infraestructura Cloud para PySpark Real-Time
- Sistemas de Tópicos y Colas
- EventHubs como Sistema de Tópicos y Colas sobre Azure
- Kinesis como Sistemas de Tópicos y Colas sobre AWS
- Pub/Sub como Sistema de Tópicos y Colas sobre GCP
- Conexión Remota a EventHubs con PySpark
- Conexión Remota a Kinesis con PySpark
- Conexión Remota a Pub/Sub con PySpark
MÓDULO 8: Machine Learning sobre PySpark
- Introducción Teórica a los Modelos Analíticos
- Algoritmos de Machine Learning
- Infraestructura de Procesamiento Analítico
- Clúster de Big Data vs Servidores de GCP
- Spark como Motor de Procesamiento para Algoritmos de Machine Learning
- Integración de Dataframes de Spark con Pandas con Koalas
- Algoritmos de Clusterización y Tipos de Distancia
- Implementación de K-Means para Segmentación de Datos
- Calibración de Parámetros sobre el Modelo de K-Means