80.00
80.0 USD 80.00
80.00
Responsable Carlos Fierro
Última actualización 19/08/2023
Miembros 2
  • MÓDULO 1: Introducción y Preparación del Entorno
    • Introducción Teórica
    • Big Data y Spark
    • Programación en Drivers vs Programación en Executors
    • Procesamiento In-Memory
    • Componentes de Spark
    • Variables Distribuidas en un Clúster: RDD vs DATAFRAME
    • Lenguajes de Programación para Spark: Scala vs Python vs R
    • Despliegue de Clúster Spark
    • Configuración a Repositorio de Datos
    • Scala como Lenguaje de Programación
    • Preparación de Clúster Spark
  • MÓDULO 2: Procesamiento Estructurado con Spark SQL
    • Definición del "SparkSession" para Procesos Bathc
    • Lectura de Archivos como Tablas Estructuradas
    • Definición de Schemas
    • Transformaciones en SQL
    • Creación de Vistas Temporales
    • Parametrización de Código
    • Encadenamiento de Procesos Estructurados
    • Almacenamiento en Formatos Binarios de Rápido Procesamiento: Parquet y Avro
  • MÓDULO 3: Procesamiento Funcional
    • Programación Funcional
    • Dataframes para Datos Estructurados y Semi-Estructurados
    • Transformaciones y Operaciones en Dataframes
    • Creación de Funciones Personalizadas con UDFs
    • UDFs con Multi-Parámetros
    • Almacenamiento en Formatos Binarios de Rápido Procesamiento: Parquet y Avro
    • Procesamientos en Pasos Encadenados
    • Procesamientos en Pasos Separados
    • Liberación de Memoria con el Garbage Collector
  • MÓDULO 4: Procesamiento Semi-Estructurado & Instalación de Librerías
    • Lectura de Archivos JSON
    • Lectura de Archivos XML
    • Dataframes Semi-Estructurados
    • Definición del Esquema de Formato Semi-Estructurado
    • Patrón de Diseño de Modelamiento Semi-Estructurado
    • Navegación de Campos Complejos
    • Navegación Manual de Campos Array
    • Navegación Automática de Campos de Array
    • Trazabilidad y Debugeo de errores
    • Instalación de Librerías desde Repositorios Públicos
    • Instalación de Librerías desde Repositorios Privados
  • MÓDULO 5: Tuning y Patrones de Diseño (PARTE 1)
    • Patrón de Checkpoint para evitar Colapso de Memoria RAM
    • Patrón de Caché para Reducir Tiempos de Procesamiento
    • Patrón Delta-Lake para Actualizaciones
    • Aumentando el Nivel de Paralelización con Executors
    • Optimización de JOINS
    • Optimización de Modelamiento
    • Implementación de Reglas de Calidad
  • MÓDULO 6: Tuning y Patrones de Diseño (PARTE 2)
    • Definición de Reserva de Memoria según Capacidad del Clúster
    • Reserva de Memoria RAM sobre la Sesión
    • Gestión de Participaciones de los Dataframes
    • Estrategia de Desarrollo con Arquetipos
    • Implementación de Arquetipos
    • Tunning de Arquetipos
    • Monitoreo con Spark UI
  • MÓDULO 7: Conexión Sistema de Archivos sobre AWS, AZURE y GCP
    • Databricks como Entorno Multi-Cloud para Procesamiento en Spark
    • Integración, Conexión y Lectura de Datos desde el S3 de AWS
    • Integración, Conexión y Lectura de Datos desde el Blob Storage de Azure
    • Integración, Conexión y Lectura de Datos desde el Cloud Storage de GCP
    • Estrategia de Implementación Multi-Cloud
    • Definición de Infraestructura de Procesamiento
    • Definición de Infraestructura de Almacenamiento
  • MÓDULO 8: Spark Streaming para Procesamiento Real-Time
    • Arquitectura Real-Time y de Storm Data
    • Kafka como Interfaz Estándar de Procesamiento
    • Creación de Tópicos Real-Time
    • Patrón Micro-Batch para Optimización de Ahorro de Tiempo en CPU
    • Patrón de Diseño Producer: Read, Formay & Write
    • Patrón de Diseño Consumer: Read, Format, Enrichment & Process
    • Patrón de Diseño para Emulación de Storm Data
    • Pruebas de Volumetría