Spark & Scala en Databricks

$ 80.00

Responsable	Carlos Fierro
Última actualización	19/08/2023
Miembros	2

Curso
Reseñas

MÓDULO 1: Introducción y Preparación del Entorno
- Introducción Teórica
- Big Data y Spark
- Programación en Drivers vs Programación en Executors
- Procesamiento In-Memory
- Componentes de Spark
- Variables Distribuidas en un Clúster: RDD vs DATAFRAME
- Lenguajes de Programación para Spark: Scala vs Python vs R
- Despliegue de Clúster Spark
- Configuración a Repositorio de Datos
- Scala como Lenguaje de Programación
- Preparación de Clúster Spark
MÓDULO 2: Procesamiento Estructurado con Spark SQL
- Definición del "SparkSession" para Procesos Bathc
- Lectura de Archivos como Tablas Estructuradas
- Definición de Schemas
- Transformaciones en SQL
- Creación de Vistas Temporales
- Parametrización de Código
- Encadenamiento de Procesos Estructurados
- Almacenamiento en Formatos Binarios de Rápido Procesamiento: Parquet y Avro
MÓDULO 3: Procesamiento Funcional
- Programación Funcional
- Dataframes para Datos Estructurados y Semi-Estructurados
- Transformaciones y Operaciones en Dataframes
- Creación de Funciones Personalizadas con UDFs
- UDFs con Multi-Parámetros
- Almacenamiento en Formatos Binarios de Rápido Procesamiento: Parquet y Avro
- Procesamientos en Pasos Encadenados
- Procesamientos en Pasos Separados
- Liberación de Memoria con el Garbage Collector
MÓDULO 4: Procesamiento Semi-Estructurado & Instalación de Librerías
- Lectura de Archivos JSON
- Lectura de Archivos XML
- Dataframes Semi-Estructurados
- Definición del Esquema de Formato Semi-Estructurado
- Patrón de Diseño de Modelamiento Semi-Estructurado
- Navegación de Campos Complejos
- Navegación Manual de Campos Array
- Navegación Automática de Campos de Array
- Trazabilidad y Debugeo de errores
- Instalación de Librerías desde Repositorios Públicos
- Instalación de Librerías desde Repositorios Privados
MÓDULO 5: Tuning y Patrones de Diseño (PARTE 1)
- Patrón de Checkpoint para evitar Colapso de Memoria RAM
- Patrón de Caché para Reducir Tiempos de Procesamiento
- Patrón Delta-Lake para Actualizaciones
- Aumentando el Nivel de Paralelización con Executors
- Optimización de JOINS
- Optimización de Modelamiento
- Implementación de Reglas de Calidad
MÓDULO 6: Tuning y Patrones de Diseño (PARTE 2)
- Definición de Reserva de Memoria según Capacidad del Clúster
- Reserva de Memoria RAM sobre la Sesión
- Gestión de Participaciones de los Dataframes
- Estrategia de Desarrollo con Arquetipos
- Implementación de Arquetipos
- Tunning de Arquetipos
- Monitoreo con Spark UI
MÓDULO 7: Conexión Sistema de Archivos sobre AWS, AZURE y GCP
- Databricks como Entorno Multi-Cloud para Procesamiento en Spark
- Integración, Conexión y Lectura de Datos desde el S3 de AWS
- Integración, Conexión y Lectura de Datos desde el Blob Storage de Azure
- Integración, Conexión y Lectura de Datos desde el Cloud Storage de GCP
- Estrategia de Implementación Multi-Cloud
- Definición de Infraestructura de Procesamiento
- Definición de Infraestructura de Almacenamiento
MÓDULO 8: Spark Streaming para Procesamiento Real-Time
- Arquitectura Real-Time y de Storm Data
- Kafka como Interfaz Estándar de Procesamiento
- Creación de Tópicos Real-Time
- Patrón Micro-Batch para Optimización de Ahorro de Tiempo en CPU
- Patrón de Diseño Producer: Read, Formay & Write
- Patrón de Diseño Consumer: Read, Format, Enrichment & Process
- Patrón de Diseño para Emulación de Storm Data
- Pruebas de Volumetría