Data Engineer II & Big Data Hybrid-Cloud

Data Engineer II & Big Data Hybrid-Cloud

En el programa de Data Engineer II, el participante adquiere las habilidades cognitivas que le permiten entender, diseñar y desarrollar según sea el caso procesos ETL y/o ELT, siendo capaz de identificar los principales frameworks ETL/ELT, formándose en el uso aplicado de Pentaho Data Integration (PDI), la cual forma parte de la suite de analítica provista por la compañía japonesa HITACHI, esto le permitirá desarrollar casos de uso y pruebas de concepto para el tratamiento de datos por streaming en real time y/o near real time, todo ello con el despliegue de clusters con Apache Kafka y Apache Flink.

 D​​​​​​escargar Temario​​​​
 

199.00
199.0 USD 199.00
199.00
Responsable Carlos Fierro
Última actualización 25/09/2023
Tiempo de finalización 3 horas 25 minutos
Miembros 6
Data Engineer BI Analytics con Pentaho Google Big Data Pentaho AWS Azure
  • Presentación del Programa Completo Data Engineer I y II
  • MÓDULO 1: ETL / ETL Frameworks
    • Sesión 1 - Completa en vivo
    • Sesión 2 - Completo en Vivo
    • Sesión 3 - Completo en Vivo
    • ¿Diferencias entre ELT y ELT?
    • Tipos de Framework ETL/ELT
    • ¿Qué es la Suite de Pentaho Analytics?
    • ¿Qué es Pentaho Data Integration?
    • Diseñando nuestra primera transformación
    • Diseñando nuestro primer Job.
    • Soporte y conexiones a diversas fuentes de datos
    • Trabajando con control de versiones Git
    • Demostración de como utilizar el repositorio nativo basado en metadatos compartidos de la Suite de Pentaho
    • Conociendo los steps o componentes de tipo transformación y job orientados al Big Data y Big Data Streaming
  • Orquestación Hybrid-Cloud
    • Ingestando y transformando datos a un clúster on-premise a de Big Data de Cloudera (CDH)
    • Ingestando y transformando datos a un clúster on-premise de Big Data de Hortonworks (HDP)
    • Ingestando y transformando datos a un Datalake On-Cloud de Big Data en AWS
    • Ingestando y transformando datos a un Datalake On-Cloud de Big Data en GCP
    • Entendiendo el Landing Zone, Raw Zone,Refine Zone, Trusted Zone y Analytics Zone
    • Perfilando la construcción de un DataWarehouse on-cloud en AWS
  • MÓDULO 2: Stream Processing con Kafka
    • ¿Revisando la tecnología de Apache Kafka?
    • Desplegando Clúster con 3 nodos de Kafka y 3 nodos de Zookeeper
    • Definiendo y creando tópicos
    • Monitoreando tramas de flujos de Streaming con herramientas de consumo de Streaming para Kafka
    • Caso de Uso: Ingestando y transformando data en Streaming de un Banco
    • PDI en el consumo de streaming desde un tópico de Kafka
    • Produciendo datos desde PDI en un Tópico
  • STREAMING PROCESSING CON FLINK
    • Caso de uso real: Procesamiento por Streaming con Apache Flink y publicación en formato RAW en tópico de Apache Kafka
    • Procesamiento por Streaming con Flink, refinería de datos y transmisión a tópicos en Apache Kafka
    • Consumiendo y transformando datos por Streaming con Pentaho Data Integration
    • Apache Kafka, Apache Flink On-cloud, Caso de uso en AWS
    • Llevando nuestro Pipeline a la nube en AWS
  • MÓDULO 3: Stream Processing con Elastic
    • ¿Revisando el Stack tecnológico de Elastic?
    • Desplegando Clúster con 3 nodos de Elastick Search, 1 Logstach, Beats y Kiabana
    • Integrando Logstach + kafka + Elastic
    • Creando índices para la gestión de datos geo- referenciados
    • Caso de Uso: Ingestando y transformando data en Streaming
    • PDI para la orquestación entre Apache Kafka y Elastic Stack
    • Optimizando data pipeline
  • MÓDULO 4: Monitoreo de Data Pipelines
    • Arquitectura de Supervisión
    • Despliegue de Prometheus con Docker y Kubernetes en nuestro entorno on-premise
    • Consultas con PromQL
    • Despliegue de Grafana con Docker y Kubernetes en nuestro entorno on-premise
    • Creación y gestión de alertas
    • Monitoreando nuestro Data Pipeline
    • Creación de gráficos con Grafana
    • Monitoreo de Data Pipelines On-Cloud con AWS
    • Monitoreo de Data Pipelines On-Cloud con Azure
    • Monitoreo de Data Pipelines On-Cloud con GCP
  • MÓDULO 5: Procesamiento sobre Spark
    • Python con Spark para PySpark
    • Programación Funcional
    • Dataframes para Datos Estructurados y Semi-Estructurados
    • Transformaciones y Operaciones en Dataframes
    • Creación de Funciones Personalizadas con UDFs
    • UDFs con Multi-Parámetros
    • Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Delta
    • Procesamientos en Pasos Encadenados
    • Procesamientos en Pasos Separados
    • Liberación de Memoria con el Garbage Collector
  • MÓDULO 6: Jenkins | GitHub Actions
    • Revisión de la gestión de repositorios y control de versión con Git
    • Integración continua (CI) con Jenkins pipelines
    • Entrega continua y despliegue continuo (CD) con Jenkins y Kubernetes
    • ¿Qué es Github Action Workflow?
    • Acciones de Github
    • Runners en Github
    • Trabajando con Github Actions y AWS
    • Trabajando con Github Actions y Azure
    • Trabajando con Github Actions y GCP
    • Github y Pentaho Data Integration
  • Jenkins | GitLab Pipelines
    • Fundamentos de Integración Continua con GitLab (CI)
    • Flujos básico de tipo CI/CD con Gitlab CI
    • Tópicos específicos y Tópicos de usuario
    • YAML básicos
    • Trabajando con Gitlab pipelines y AWS
    • Trabajando con Gitlab pipelines y Azure
    • Trabajando con Gitlab pipelines y GCP
  • MÓDULO 7: Identificación y Gestión de Acceso
    • Mecanismos de identificación y gestión de acceso on-premise
    • Mecanismos de identificación y gestión de acceso on-cloud con AWS
    • Mecanismos de identificación y gestión de acceso on-cloud con Azure
    • Mecanismos de identificación y gestión de acceso on-cloud con GCP
    • Caso de USO I en AWS
    • Caso de USO II en AWS
    • Caso de USO I en Azure
    • Caso de USO II en Azure
    • Caso de USO I en GCP
    • Caso de USO II en CP
  • MÓDULO 8: Proyecto Integrador Hybrid-Cloud
    • Una capa de Data Scraping en tiempo real
    • Una capa de Pipeline de Ingestión de datos en tiempo real
    • Una capa de Pipeline de Ingestión de datos en Batch
    • Una capa de Monitoreo del Pipeline completo