Spark & Scala en Databricks
$ 80.00
80.0
USD
$ 80.00
Responsable | Carlos Fierro |
---|---|
Última actualización | 19/08/2023 |
Miembros | 2 |
Share This Course
Compartir enlace
Share on Social Media
Share by Email
Por favor iniciar sesión para compartir esto Spark & Scala en Databricks por correo.
-
MÓDULO 1: Introducción y Preparación del Entorno
-
Introducción Teórica
-
Big Data y Spark
-
Programación en Drivers vs Programación en Executors
-
Procesamiento In-Memory
-
Componentes de Spark
-
Variables Distribuidas en un Clúster: RDD vs DATAFRAME
-
Lenguajes de Programación para Spark: Scala vs Python vs R
-
Despliegue de Clúster Spark
-
Configuración a Repositorio de Datos
-
Scala como Lenguaje de Programación
-
Preparación de Clúster Spark
-
-
MÓDULO 2: Procesamiento Estructurado con Spark SQL
-
Definición del "SparkSession" para Procesos Bathc
-
Lectura de Archivos como Tablas Estructuradas
-
Definición de Schemas
-
Transformaciones en SQL
-
Creación de Vistas Temporales
-
Parametrización de Código
-
Encadenamiento de Procesos Estructurados
-
Almacenamiento en Formatos Binarios de Rápido Procesamiento: Parquet y Avro
-
-
MÓDULO 3: Procesamiento Funcional
-
Programación Funcional
-
Dataframes para Datos Estructurados y Semi-Estructurados
-
Transformaciones y Operaciones en Dataframes
-
Creación de Funciones Personalizadas con UDFs
-
UDFs con Multi-Parámetros
-
Almacenamiento en Formatos Binarios de Rápido Procesamiento: Parquet y Avro
-
Procesamientos en Pasos Encadenados
-
Procesamientos en Pasos Separados
-
Liberación de Memoria con el Garbage Collector
-
-
MÓDULO 4: Procesamiento Semi-Estructurado & Instalación de Librerías
-
Lectura de Archivos JSON
-
Lectura de Archivos XML
-
Dataframes Semi-Estructurados
-
Definición del Esquema de Formato Semi-Estructurado
-
Patrón de Diseño de Modelamiento Semi-Estructurado
-
Navegación de Campos Complejos
-
Navegación Manual de Campos Array
-
Navegación Automática de Campos de Array
-
Trazabilidad y Debugeo de errores
-
Instalación de Librerías desde Repositorios Públicos
-
Instalación de Librerías desde Repositorios Privados
-
-
MÓDULO 5: Tuning y Patrones de Diseño (PARTE 1)
-
Patrón de Checkpoint para evitar Colapso de Memoria RAM
-
Patrón de Caché para Reducir Tiempos de Procesamiento
-
Patrón Delta-Lake para Actualizaciones
-
Aumentando el Nivel de Paralelización con Executors
-
Optimización de JOINS
-
Optimización de Modelamiento
-
Implementación de Reglas de Calidad
-
-
MÓDULO 6: Tuning y Patrones de Diseño (PARTE 2)
-
Definición de Reserva de Memoria según Capacidad del Clúster
-
Reserva de Memoria RAM sobre la Sesión
-
Gestión de Participaciones de los Dataframes
-
Estrategia de Desarrollo con Arquetipos
-
Implementación de Arquetipos
-
Tunning de Arquetipos
-
Monitoreo con Spark UI
-
-
MÓDULO 7: Conexión Sistema de Archivos sobre AWS, AZURE y GCP
-
Databricks como Entorno Multi-Cloud para Procesamiento en Spark
-
Integración, Conexión y Lectura de Datos desde el S3 de AWS
-
Integración, Conexión y Lectura de Datos desde el Blob Storage de Azure
-
Integración, Conexión y Lectura de Datos desde el Cloud Storage de GCP
-
Estrategia de Implementación Multi-Cloud
-
Definición de Infraestructura de Procesamiento
-
Definición de Infraestructura de Almacenamiento
-
-
MÓDULO 8: Spark Streaming para Procesamiento Real-Time
-
Arquitectura Real-Time y de Storm Data
-
Kafka como Interfaz Estándar de Procesamiento
-
Creación de Tópicos Real-Time
-
Patrón Micro-Batch para Optimización de Ahorro de Tiempo en CPU
-
Patrón de Diseño Producer: Read, Formay & Write
-
Patrón de Diseño Consumer: Read, Format, Enrichment & Process
-
Patrón de Diseño para Emulación de Storm Data
-
Pruebas de Volumetría
-