80.00
80.0 USD 80.00
80.00
Responsable Carlos Fierro
Última actualización 17/08/2023
Miembros 1
  • MÓDULO 1: Introducción y Preparación del Entorno en Databricks
    • Introducción Teórica
    • Big Data y Spark
    • Procesamiento In-Memory
    • Componentes de Spark
    • Variables Distribuidas en un Clúster: RDD vs DATAFRAME
    • Lenguajes de Programación para Spark: Scala vs Python vs R
    • Despliegue de Clúster Spark
    • Configuración a Repositorio de Datos
    • Python como Lenguaje de Programación
    • Infraestructura de Almacenamiento
    • Infraestructura de Procesamiento
    • Preparación de Clúster de Procesamiento
    • Preparación de Clúster de Almacenamiento
    • Programación de PySpark con SQL
  • MÓDULO 2: Procesamiento Funcional con Pyspark
    • Programación Funcional
    • Dataframes para Datos Estructurados y Semi-Estructurados
    • Transformaciones y Operaciones en Dataframes
    • Creación de Funciones Personalizadas con UDFs
    • UDFs con Multi-Parámetros
    • Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Avro
    • Procesamiento en Pasos Encadenados
    • Procesamientos en Pasos Separados
    • Liberación de Memoria con el Garbage Collector
    • Arquetipo de Procesamiento Funcional
  • MÓDULO 3: Implementación Delta Lake con Pyspark
    • Arquitectura Data Lake y Delta Lake
    • Taxonomía Delta Lake
    • Definición de Capa BRONZE
    • Definición de Capa SILVER
    • Definición de Capa GOLD
    • Lectura de Archivos JSON
    • Lectura de Archivos XML
    • Dataframes Semi-Estructurados
    • Definición del Esquema de Formato Semi-Estructurado
    • Patrón de Diseño de Modelamiento Semi-Estructurado
    • Navegación de Campos Complejos
    • Implementación de Reglas de Calidad
    • Implementación de Modelamiento
  • MÓDULO 4: Tuning y Patrones de Diseño con Pyspark
    • Arquetipo de Procesamiento sobre el Delta Lake
    • Patrón de Diseño Show para evitar Re-Procesos
    • Patrón de Checkpoint para evitar Colapso de Memoria RAM
    • Patrón de Caché para reducir Tiempos de Procesamientos
    • Aumentando el Nivel de Paralelización con Executors
    • Optimización de JOINS
    • Optimización de Modelamiento
    • Arquetipo de Procesamiento Optimizado
    • Definición de Reserva de Memoria según Capacidad del Clúster
    • Reserva de Memoria RAM sobre la Sesión
    • Gestión de Participaciones de los Dataframes
  • MÓDULO 5: Procesamiento Real-Time con Pyspark
    • Arquitectura Real-Time y de Storm Data
    • Kafka como Interfaz Estándar de Procesamiento
    • Creación de Tópicos Real-Time
    • Patrón Micro-Batch para Optimización de Ahorro de Tiempo en CPU
    • Patrón de Diseño Producer: Read, Format & Write
    • Patrón de Diseño Consumer: Read, Format, Enrichment & Process
    • Patrón de Diseño para Emulación de Storm Data
    • Pruebas de Volumetría
  • MÓDULO 6: Infraestructura Cloud para Pyspark Batch
    • Sistemas de Archivos Distribuidos
    • DBFS como Sistema de Archivos sobre Databricks
    • Blob Storage como Sistema de Archivos sobre Azure
    • S3 como Sistema de Archivos sobre AWS
    • Cloud Storage como Sistema de Archivos sobre GCP
    • Montado Remoto del Blob Storage con PySpark
    • Montado Remoto del S3 con PySpark
    • Montado Remoto del Cloud Storage con PySpark
  • MÓDULO 7: Infraestructura Cloud para PySpark Real-Time
    • Sistemas de Tópicos y Colas
    • EventHubs como Sistema de Tópicos y Colas sobre Azure
    • Kinesis como Sistemas de Tópicos y Colas sobre AWS
    • Pub/Sub como Sistema de Tópicos y Colas sobre GCP
    • Conexión Remota a EventHubs con PySpark
    • Conexión Remota a Kinesis con PySpark
    • Conexión Remota a Pub/Sub con PySpark
  • MÓDULO 8: Machine Learning sobre PySpark
    • Introducción Teórica a los Modelos Analíticos
    • Algoritmos de Machine Learning
    • Infraestructura de Procesamiento Analítico
    • Clúster de Big Data vs Servidores de GCP
    • Spark como Motor de Procesamiento para Algoritmos de Machine Learning
    • Integración de Dataframes de Spark con Pandas con Koalas
    • Algoritmos de Clusterización y Tipos de Distancia
    • Implementación de K-Means para Segmentación de Datos
    • Calibración de Parámetros sobre el Modelo de K-Means