Data Engineer I & Big Data Hybrid-Cloud
En este programa, el participante adquiere las habilidades que le permiten comprender y desplegar el ecosistema de Hadoop on-premise, es decir en su propia infraestructura, utilizando tecnologías de virtualización como docker y kubernete, e identifica plenamente como dicho ecosistema es desplegado en los principales proveedores cloud: AWS, Azure y GCP, utilizando para ello, los principales servicios auto-gestionados, estando así en la capacidad de satisfacer la demanda creciente del mercado, en relación a contar con profesionales con conocimientos en entornos Híbridos de Big Data (on-presmise & on-cloud), así mismo el participante aprende el lenguaje de programación Python requerido en el contexto de proyectos de Big Data para transformar los datos de formatos crudos (RAW) a formatos estructurados.
Descargar Temario
Responsable | Carlos Fierro |
---|---|
Última actualización | 06/10/2023 |
Tiempo de finalización | 3 horas 17 minutos |
Miembros | 6 |
Share This Course
Compartir enlace
Share on Social Media
Share by Email
Por favor iniciar sesión para compartir esto Data Engineer I & Big Data Hybrid-Cloud por correo.
-
Presentación del Programa Completo Data Engineer I y II
-
Previsualizar
-
Previsualizar
-
-
ALCANCES GENERALES Y TECNOLOGÍAS AUXILIARES
-
Infografía Roadmap Data Engineer
-
-
MÓDULO 1: Arquitectura de Big Data
-
¿Qué es Big Data? Referencia
-
Hive - Procesamiento Distribuido (DAS & Superset)
-
Arquitecturas de Big Data
-
Arquitecturas de Cloud Computing
-
Tecnologías de Big Data - Enfoque General
-
Tecnologías de Big Data - Enfoque Funcional
-
Infraestructura de Almacenamiento y Procesamiento
-
Hadoop como Ecosistema de Almacenamiento
-
Trabajando de manera distribuida sobre un Clúster
-
Hadoop como Estándar en el Mundo del Big Data
-
HDFS como Motor de Almacenamiento
-
YARN como Gestor de Recursos
-
MapReduce Vs Spark como Motor de Procesamient
-
Preparación de Entornos
-
Capacidad Física de un Clúster
-
Distribuciones Hadoop
-
Enfoque Arquitectónico y Tecnologías Auxiliares para Desplegar Clúster On-Premise
-
¿Cómo Obtener Distribuciones de Hadoop para Desplegar Nuestro Propio Clúster On-Premise?
-
Previsualizar
-
Configurar entorno Spark en Cloud I
-
-
MODULO 1: TECNOLOGÍAS DE VIRTUALIZACIÓN & ORQUESTACIÓN
-
Preparando Entorno Virtualizado con Virtualbox
-
Descarga HDP-HDF
-
Desplegando HDP Standalone
-
Desplegando HDF Standalone (Port Forwarding)
-
Cambiando contraseña root en HDP
-
Accediendo desde Host remoto al Gateway del HDP
-
Uso de Tuneles con SSH
-
Tips para tu Clúster Pseudo-Distribuido Virtual Box
-
Cambiando la clave de Admin en Ambari
-
Arquitectura de Ambari
-
Desplegando CDH Virtualizado
-
¿Que es Docker?
-
Instalacion de Docker Container
-
Como funciona Docker
-
Containers en Sistemas Operativos
-
Como se crea un docker container
-
Comandos en Docker Run
-
Comandos para Listar Containers
-
Stop y Kill Containers
-
Laboratorio con Redis y Acceso a Shell
-
Acceso a Shell con Docker Run
-
Despliegue en Docker del HDP & HDF
-
Entendiendo la necesidad del Sanbox-Proxy
-
Demo en vivo & Arquitectura de Cloudera
-
-
Preparando Ambientes de Trabajo (On-Premise/On-Cloud)
-
Desplegando Hadoop on-cloud (I)
-
-
TECNOLOGÍAS DE ORQUESTACIÓN
-
Accediendo a las Imágenes de Virtualización para Docker de Hortonworks
-
Accediendo a las Imágenes de Virtualización para VirtualBox y VMWare de Cloudera
-
Desplegando de forma Optimizada los Clúster de HDP y DHF
-
Desplegando Cloudera en VirtualBox y VMWare
-
-
MÓDULO 2: Procesamiento Distribuido con Hive
-
Previsualizar
-
Creando cuenta en DataBricks
-
Primeros pasos con Hive en HDP - creación de una Base de datos
-
Alternativas de Orquestación en Atención al Data Pipeline
-
Enfoque y Objetivos de la Herramienta de Orquestación del Programa de Data Engineer en NextCollege
-
Hive como Infraestructura de Almacenamiento
-
SQL sobre Spark
-
Archivos de HDFS como Tablas Hive
-
Particionamiento Estático y Dinámico
-
Formatos binarios de archivos: Parquet, Delta
-
Configuración y Tuneo de Procesos en Hive
-
Sqoop como Motor de Ingesta de Datos
-
Importando Datos a Hadoop a bases de Datos Relacionales
-
Arquetipo de Ingesta de Datos Batch
-
Arquetipo de Modelamiento de Datos
-
Arquetipo de Procesamiento de Datos
-
-
MÓDULO 3: Big Data en AWS
-
Servicios de Big Data disponibles en AWS
-
Arquitectura de Big Data sobre AWS
-
Implementación de un Data Lake para gobierno de Datos sobre AWS
-
Ingesta y Almacenamiento de Datos sobre el S3
-
Interfaz SQL de AWS con Athena
-
Implementación de flujos ETL con GLue
-
Infraestructura para Clúster de Big Data con EMR
-
Implementación de Flujos ETL con Glue
-
Infraestructura para Clúster de Big Data con EMR
-
Implementación de soluciones con Spark para EMR
-
Despliegues y Workflows con Workflows for Glue y Step Functions
-
-
MÓDULO 4: Big Data en AZURE
-
Servicios de Big Data disponibles en Azure
-
Arquitectura de Big Data sobre Azure
-
Implementación de un Data Lake para Gobierno de Datos sobre Azure
-
Ingesta y Almacenamiento de Datos sobre el Blob Storage
-
Datasets sobre Data Factory
-
Implementación de Flujos ETL con Dataflow
-
Infraestructura para Clústers de Big Data con HDInsight
-
Implementación de Soluciones con Spark para HDInsight
-
Despliegues y Workflows con Data Factory
-
-
MÓDULO 5: Big Data en GCP
-
Servicios de Big Data disponibles en GCP
-
Arquitectura de Big Data sobre GCP
-
Implementación de un Data Lake para Gobierno de Datos sobre GCP
-
Ingesta y Almacenamiento de Datos sobre el Cloud Storage
-
Interfaz SQL de GCP con Bigquery
-
Implementación de Flujos ETL con Data Fusion
-
Infraestructura para Clúster de Big Data con Dataproc
-
Implementación de Soluciones con Spark para Dataproc
-
Despliegues y Workflows con Cloud Composer
-
-
MÓDULO 6: Git & Git Hub Fundamentals
-
Introducción a Git y GitHub
-
Bifurcando Repositorios de Terceros
-
Definiendo Estrategia de Control de Versiones
-
Creando Ramas de Tipo Branches
-
Creando Ramas de Tipo Tag
-
Trabajando de Forma Colaborativa
-
Seguridad en Proyectos Colaborativos
-
Automatizando Tareas en GitHub
-
Herramientas de Monitoreo y Gestión
-
Herramientas de Sincronización
-
Buenas Prácticas al documentar los Repositorios
-
Tecnologías Subyacentes y Complementarias
-
Git en AWS, AZURE y GCP
-
-
PYTHON DATA WRANGLING
-
Introducción a Python
-
Análisis de datos con Python
-
Desarrollando algoritmos con Numpy
-
Desarrollando algoritmos con Pandas
-
Entendiendo la Estadística Inferencial
-
Entendiendo la Estadística Descriptiva
-
Aprendiendo sobre los secretos ocultos del Data Wrangling
-
Web Scraping básico y avanzado para la recopilación de datos
-
Python y bases de datos de tipo RDBMS
-
-
MÓDULO 7: Tecnologías APIs
-
Entendiendo los APIs y sus tipos
-
Ejemplo de una API en un sitio real
-
Tipos de pruebas de AP I
-
Postman como herramienta de testing
-
Anatomía de una API Request
-
Manejo de Coleccione s
-
Manejando los verbos de tipo HTTP
-
Manejo de variables en Postman
-
Creación de Postman monitors
-
Automatización de pruebas
-
Integración de Postman tests en pipelines de Azure
-
-
API CON PYTHON
-
¿Qué es Newman? Y sus beneficios para correr pruebas automáticas
-
Mecanismos o tipos de autenticación y autorización
-
Construcción de un API con Python
-
Probando nuestro API con los principales verbos HTTP
-
Probando nuestro API Python en un Data pipeline en Azure
-
-
MÓDULO 8: Procesamiento Real-Time sobre Big Data
-
Instalar/Habilitar Google Colaboratory/Colab
-
¿Qué es Apache Kakfa?
-
Apache Kafka Straming (Real-Time)
-
Arquitectura y Despliegue local
-
Preparando Pentaho Data Integration (PDI)
-
¿Streaming, Real Time, Near Real Time o Micro Batch?
-
Arquitectura General para Proyectos Real Time
-
Captura de Datos desde fuentes Real Time: Tormenta de Datos
-
La Elasticidad en la Capa de Captura y Procesamiento
-
La Importancia de la Parelización Elástica Evitando el Colapso de CPU
-
Kafka como Repositorio Temporal de baja latencia
-
Tópico, Producers y Consumers
-
Tuning de Tópicos
-
Spark Streaming
-
Arquetipo de procesamiento Real Time
-
Arquetipo enriquecimiento Real Time
-
Limitaciones y cómo superarlas
-
-
SQL & NoSQL | KSQL
-
Diferencias entre SQL & NoSQL
-
Tipos de Bases de Datos NoSQL
-
¿Qué Base de Datos NoSQL me conviene utilizar en mi proyecto?
-
Uso práctico de Casandra y Mongo DB on- premise y on-Cloud
-
DynamoDB y el uso de RDS
-
-
Cheat Sheet
-
Cloud Comparison Cheat Sheet
-