Data Engineer I & Big Data Hybrid-Cloud

Data Engineer I & Big Data Hybrid-Cloud

En este programa, el participante adquiere las habilidades que le permiten comprender y desplegar el ecosistema de Hadoop on-premise, es decir en su propia infraestructura, utilizando tecnologías de virtualización como docker y kubernete, e identifica plenamente como dicho ecosistema es desplegado en los principales proveedores cloud: AWS, Azure y GCP, utilizando para ello, los principales servicios auto-gestionados, estando así en la capacidad de satisfacer la demanda creciente del mercado, en relación a contar con profesionales con conocimientos en entornos Híbridos de Big Data (on-presmise & on-cloud), así mismo el participante aprende el lenguaje de programación Python requerido en el contexto de proyectos de Big Data para transformar los datos de formatos crudos (RAW) a formatos estructurados.

 Descargar Temario​​​​
 

Curso privado
Por favor iniciar sesión para contactar al responsable.
Responsable Carlos Fierro
Última actualización 06/10/2023
Tiempo de finalización 3 horas 17 minutos
Miembros 6
Data Engineer Big Data Azure Google AWS Pentaho
  • Presentación del Programa Completo Data Engineer I y II
  • ALCANCES GENERALES Y TECNOLOGÍAS AUXILIARES
    • Infografía Roadmap Data Engineer
  • MÓDULO 1: Arquitectura de Big Data
    • ¿Qué es Big Data? Referencia
    • Hive - Procesamiento Distribuido (DAS & Superset)
    • Arquitecturas de Big Data
    • Arquitecturas de Cloud Computing
    • Tecnologías de Big Data - Enfoque General
    • Tecnologías de Big Data - Enfoque Funcional
    • Infraestructura de Almacenamiento y Procesamiento
    • Hadoop como Ecosistema de Almacenamiento
    • Trabajando de manera distribuida sobre un Clúster
    • Hadoop como Estándar en el Mundo del Big Data
    • HDFS como Motor de Almacenamiento
    • YARN como Gestor de Recursos
    • MapReduce Vs Spark como Motor de Procesamient
    • Preparación de Entornos
    • Capacidad Física de un Clúster
    • Distribuciones Hadoop
    • Enfoque Arquitectónico y Tecnologías Auxiliares para Desplegar Clúster On-Premise
    • ¿Cómo Obtener Distribuciones de Hadoop para Desplegar Nuestro Propio Clúster On-Premise?
    • Previsualizar
    • Configurar entorno Spark en Cloud I
  • MODULO 1: TECNOLOGÍAS DE VIRTUALIZACIÓN & ORQUESTACIÓN
    • Preparando Entorno Virtualizado con Virtualbox
    • Descarga HDP-HDF
    • Desplegando HDP Standalone
    • Desplegando HDF Standalone (Port Forwarding)
    • Cambiando contraseña root en HDP
    • Accediendo desde Host remoto al Gateway del HDP
    • Uso de Tuneles con SSH
    • Tips para tu Clúster Pseudo-Distribuido Virtual Box
    • Cambiando la clave de Admin en Ambari
    • Arquitectura de Ambari
    • Desplegando CDH Virtualizado
    • ¿Que es Docker?
    • Instalacion de Docker Container
    • Como funciona Docker
    • Containers en Sistemas Operativos
    • Como se crea un docker container
    • Comandos en Docker Run
    • Comandos para Listar Containers
    • Stop y Kill Containers
    • Laboratorio con Redis y Acceso a Shell
    • Acceso a Shell con Docker Run
    • Despliegue en Docker del HDP & HDF
    • Entendiendo la necesidad del Sanbox-Proxy
    • Demo en vivo & Arquitectura de Cloudera
  • Preparando Ambientes de Trabajo (On-Premise/On-Cloud)
    • Desplegando Hadoop on-cloud (I)
  • TECNOLOGÍAS DE ORQUESTACIÓN
    • Accediendo a las Imágenes de Virtualización para Docker de Hortonworks
    • Accediendo a las Imágenes de Virtualización para VirtualBox y VMWare de Cloudera
    • Desplegando de forma Optimizada los Clúster de HDP y DHF
    • Desplegando Cloudera en VirtualBox y VMWare
  • MÓDULO 2: Procesamiento Distribuido con Hive
    • Previsualizar
    • Creando cuenta en DataBricks
    • Primeros pasos con Hive en HDP - creación de una Base de datos
    • Alternativas de Orquestación en Atención al Data Pipeline
    • Enfoque y Objetivos de la Herramienta de Orquestación del Programa de Data Engineer en NextCollege
    • Hive como Infraestructura de Almacenamiento
    • SQL sobre Spark
    • Archivos de HDFS como Tablas Hive
    • Particionamiento Estático y Dinámico
    • Formatos binarios de archivos: Parquet, Delta
    • Configuración y Tuneo de Procesos en Hive
    • Sqoop como Motor de Ingesta de Datos
    • Importando Datos a Hadoop a bases de Datos Relacionales
    • Arquetipo de Ingesta de Datos Batch
    • Arquetipo de Modelamiento de Datos
    • Arquetipo de Procesamiento de Datos
  • MÓDULO 3: Big Data en AWS
    • Servicios de Big Data disponibles en AWS
    • Arquitectura de Big Data sobre AWS
    • Implementación de un Data Lake para gobierno de Datos sobre AWS
    • Ingesta y Almacenamiento de Datos sobre el S3
    • Interfaz SQL de AWS con Athena
    • Implementación de flujos ETL con GLue
    • Infraestructura para Clúster de Big Data con EMR
    • Implementación de Flujos ETL con Glue
    • Infraestructura para Clúster de Big Data con EMR
    • Implementación de soluciones con Spark para EMR
    • Despliegues y Workflows con Workflows for Glue y Step Functions
  • MÓDULO 4: Big Data en AZURE
    • Servicios de Big Data disponibles en Azure
    • Arquitectura de Big Data sobre Azure
    • Implementación de un Data Lake para Gobierno de Datos sobre Azure
    • Ingesta y Almacenamiento de Datos sobre el Blob Storage
    • Datasets sobre Data Factory
    • Implementación de Flujos ETL con Dataflow
    • Infraestructura para Clústers de Big Data con HDInsight
    • Implementación de Soluciones con Spark para HDInsight
    • Despliegues y Workflows con Data Factory
  • MÓDULO 5: Big Data en GCP
    • Servicios de Big Data disponibles en GCP
    • Arquitectura de Big Data sobre GCP
    • Implementación de un Data Lake para Gobierno de Datos sobre GCP
    • Ingesta y Almacenamiento de Datos sobre el Cloud Storage
    • Interfaz SQL de GCP con Bigquery
    • Implementación de Flujos ETL con Data Fusion
    • Infraestructura para Clúster de Big Data con Dataproc
    • Implementación de Soluciones con Spark para Dataproc
    • Despliegues y Workflows con Cloud Composer
  • MÓDULO 6: Git & Git Hub Fundamentals
    • Introducción a Git y GitHub
    • Bifurcando Repositorios de Terceros
    • Definiendo Estrategia de Control de Versiones
    • Creando Ramas de Tipo Branches
    • Creando Ramas de Tipo Tag
    • Trabajando de Forma Colaborativa
    • Seguridad en Proyectos Colaborativos
    • Automatizando Tareas en GitHub
    • Herramientas de Monitoreo y Gestión
    • Herramientas de Sincronización
    • Buenas Prácticas al documentar los Repositorios
    • Tecnologías Subyacentes y Complementarias
    • Git en AWS, AZURE y GCP
  • PYTHON DATA WRANGLING
    • Introducción a Python
    • Análisis de datos con Python
    • Desarrollando algoritmos con Numpy
    • Desarrollando algoritmos con Pandas
    • Entendiendo la Estadística Inferencial
    • Entendiendo la Estadística Descriptiva
    • Aprendiendo sobre los secretos ocultos del Data Wrangling
    • Web Scraping básico y avanzado para la recopilación de datos
    • Python y bases de datos de tipo RDBMS
  • MÓDULO 7: Tecnologías APIs
    • Entendiendo los APIs y sus tipos
    • Ejemplo de una API en un sitio real
    • Tipos de pruebas de AP I
    • Postman como herramienta de testing
    • Anatomía de una API Request
    • Manejo de Coleccione s
    • Manejando los verbos de tipo HTTP
    • Manejo de variables en Postman
    • Creación de Postman monitors
    • Automatización de pruebas
    • Integración de Postman tests en pipelines de Azure
  • API CON PYTHON
    • ¿Qué es Newman? Y sus beneficios para correr pruebas automáticas
    • Mecanismos o tipos de autenticación y autorización
    • Construcción de un API con Python
    • Probando nuestro API con los principales verbos HTTP
    • Probando nuestro API Python en un Data pipeline en Azure
  • MÓDULO 8: Procesamiento Real-Time sobre Big Data
    • Instalar/Habilitar Google Colaboratory/Colab
    • ¿Qué es Apache Kakfa?
    • Apache Kafka Straming (Real-Time)
    • Arquitectura y Despliegue local
    • Preparando Pentaho Data Integration (PDI)
    • ¿Streaming, Real Time, Near Real Time o Micro Batch?
    • Arquitectura General para Proyectos Real Time
    • Captura de Datos desde fuentes Real Time: Tormenta de Datos
    • La Elasticidad en la Capa de Captura y Procesamiento
    • La Importancia de la Parelización Elástica Evitando el Colapso de CPU
    • Kafka como Repositorio Temporal de baja latencia
    • Tópico, Producers y Consumers
    • Tuning de Tópicos
    • Spark Streaming
    • Arquetipo de procesamiento Real Time
    • Arquetipo enriquecimiento Real Time
    • Limitaciones y cómo superarlas
  • SQL & NoSQL | KSQL
    • Diferencias entre SQL & NoSQL
    • Tipos de Bases de Datos NoSQL
    • ¿Qué Base de Datos NoSQL me conviene utilizar en mi proyecto?
    • Uso práctico de Casandra y Mongo DB on- premise y on-Cloud
    • DynamoDB y el uso de RDS
  • Cheat Sheet
    • Cloud Comparison Cheat Sheet