PySpark Multi-Coud
$ 80.00
80.0
USD
$ 80.00
Responsable | Carlos Fierro |
---|---|
Última actualización | 17/08/2023 |
Miembros | 1 |
Share This Course
Compartir enlace
Share on Social Media
Share by Email
Por favor iniciar sesión para compartir esto PySpark Multi-Coud por correo.
-
MÓDULO 1: Introducción y Preparación del Entorno en Databricks
-
Introducción Teórica
-
Big Data y Spark
-
Procesamiento In-Memory
-
Componentes de Spark
-
Variables Distribuidas en un Clúster: RDD vs DATAFRAME
-
Lenguajes de Programación para Spark: Scala vs Python vs R
-
Despliegue de Clúster Spark
-
Configuración a Repositorio de Datos
-
Python como Lenguaje de Programación
-
Infraestructura de Almacenamiento
-
Infraestructura de Procesamiento
-
Preparación de Clúster de Procesamiento
-
Preparación de Clúster de Almacenamiento
-
Programación de PySpark con SQL
-
-
MÓDULO 2: Procesamiento Funcional con Pyspark
-
Programación Funcional
-
Dataframes para Datos Estructurados y Semi-Estructurados
-
Transformaciones y Operaciones en Dataframes
-
Creación de Funciones Personalizadas con UDFs
-
UDFs con Multi-Parámetros
-
Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Avro
-
Procesamiento en Pasos Encadenados
-
Procesamientos en Pasos Separados
-
Liberación de Memoria con el Garbage Collector
-
Arquetipo de Procesamiento Funcional
-
-
MÓDULO 3: Implementación Delta Lake con Pyspark
-
Arquitectura Data Lake y Delta Lake
-
Taxonomía Delta Lake
-
Definición de Capa BRONZE
-
Definición de Capa SILVER
-
Definición de Capa GOLD
-
Lectura de Archivos JSON
-
Lectura de Archivos XML
-
Dataframes Semi-Estructurados
-
Definición del Esquema de Formato Semi-Estructurado
-
Patrón de Diseño de Modelamiento Semi-Estructurado
-
Navegación de Campos Complejos
-
Implementación de Reglas de Calidad
-
Implementación de Modelamiento
-
-
MÓDULO 4: Tuning y Patrones de Diseño con Pyspark
-
Arquetipo de Procesamiento sobre el Delta Lake
-
Patrón de Diseño Show para evitar Re-Procesos
-
Patrón de Checkpoint para evitar Colapso de Memoria RAM
-
Patrón de Caché para reducir Tiempos de Procesamientos
-
Aumentando el Nivel de Paralelización con Executors
-
Optimización de JOINS
-
Optimización de Modelamiento
-
Arquetipo de Procesamiento Optimizado
-
Definición de Reserva de Memoria según Capacidad del Clúster
-
Reserva de Memoria RAM sobre la Sesión
-
Gestión de Participaciones de los Dataframes
-
-
MÓDULO 5: Procesamiento Real-Time con Pyspark
-
Arquitectura Real-Time y de Storm Data
-
Kafka como Interfaz Estándar de Procesamiento
-
Creación de Tópicos Real-Time
-
Patrón Micro-Batch para Optimización de Ahorro de Tiempo en CPU
-
Patrón de Diseño Producer: Read, Format & Write
-
Patrón de Diseño Consumer: Read, Format, Enrichment & Process
-
Patrón de Diseño para Emulación de Storm Data
-
Pruebas de Volumetría
-
-
MÓDULO 6: Infraestructura Cloud para Pyspark Batch
-
Sistemas de Archivos Distribuidos
-
DBFS como Sistema de Archivos sobre Databricks
-
Blob Storage como Sistema de Archivos sobre Azure
-
S3 como Sistema de Archivos sobre AWS
-
Cloud Storage como Sistema de Archivos sobre GCP
-
Montado Remoto del Blob Storage con PySpark
-
Montado Remoto del S3 con PySpark
-
Montado Remoto del Cloud Storage con PySpark
-
-
MÓDULO 7: Infraestructura Cloud para PySpark Real-Time
-
Sistemas de Tópicos y Colas
-
EventHubs como Sistema de Tópicos y Colas sobre Azure
-
Kinesis como Sistemas de Tópicos y Colas sobre AWS
-
Pub/Sub como Sistema de Tópicos y Colas sobre GCP
-
Conexión Remota a EventHubs con PySpark
-
Conexión Remota a Kinesis con PySpark
-
Conexión Remota a Pub/Sub con PySpark
-
-
MÓDULO 8: Machine Learning sobre PySpark
-
Introducción Teórica a los Modelos Analíticos
-
Algoritmos de Machine Learning
-
Infraestructura de Procesamiento Analítico
-
Clúster de Big Data vs Servidores de GCP
-
Spark como Motor de Procesamiento para Algoritmos de Machine Learning
-
Integración de Dataframes de Spark con Pandas con Koalas
-
Algoritmos de Clusterización y Tipos de Distancia
-
Implementación de K-Means para Segmentación de Datos
-
Calibración de Parámetros sobre el Modelo de K-Means
-