Data Engineer I & Big Data Hybrid-Cloud (GP2)

En este programa, el participante adquiere las habilidades que le permiten comprender y desplegar el ecosistema de Hadoop on-premise, es decir en su propia infraestructura, utilizando tecnologías de virtualización como docker y kubernete, e identifica plenamente como dicho ecosistema es desplegado en los principales proveedores cloud: AWS, Azure y GCP, utilizando para ello, los principales servicios auto-gestionados, estando así en la capacidad de satisfacer la demanda creciente del mercado, en relación a contar con profesionales con conocimientos en entornos Híbridos de Big Data (on-presmise & on-cloud), así mismo el participante aprende el lenguaje de programación Python requerido en el contexto de proyectos de Big Data para transformar los datos de formatos crudos (RAW) a formatos estructurados.

Descargar Temario

$ 80.00

$ 140.00

Comprar ahora

Responsable	Carlos Fierro
Última actualización	10/11/2023
Tiempo de finalización	1 hora 48 minutos
Miembros	10

Curso
Reseñas

Data Engineer Big Data Azure Google AWS Pentaho

Presentación del Programa Completo Data Engineer I y II
- Presentación Tématica del Programa de Data Engineer
  
  Vista previa gratis
- ¿Que es Big Data en 5 minutos?
  
  Vista previa gratis
TECNOLOGIAS AUXILIARES
- Sesión 1 - Completo en Vivo
- Sesión 2 - Completo en Vivo
- Sesión 3 - Completo en Vivo
- Sesion 4 - Completo en Vivo
- Sesion 5 - Completo en Vivo
- Sesion 6 - Completo en Vivo
- Sesion 7 - Completo en Vivo
- Sesion 8 - Completo en Vivo
- ¿Que es Docker?
- Instalacion de Docker Container
- Como funciona Docker
- Containers en Sistemas Operativos
- Como se crea un docker container
- Comandos en Docker Run
- Comandos para Listar Containers
- Ciclo de vida de un container
- Stop y Kill Containers
- Laboratorio con Redis y Acceso a Shell
- Acceso a Shell con Docker Run
- Creacion de imagenes con Docker
Preparando Ambientes de Trabajo (On-Premise/On-Cloud)
- Preparando nuestro ambiente Virtualizado I
- Desplegando HDP Virtualización I (HDP)
- Descarga HDP-HDF
- Desplegando HDP Virtualización II (HDF)
- Instalar/Habilitar Google Colaboratory/Colab
- Desplegando Hadoop on-cloud (I)
- Desplegando CDH Virtualización
MÓDULO 1: Arquitectura de Big Data
- ¿Qué es un clúster Pseudo-Distribuido?
  
  Vista previa gratis
- Entendiendo el entorno Pseudo-Distribuido HDP-HDF
- Entendiendo la necesidad del Sanbox-Proxy
- Demo en vivo & Arquitectura de Cloudera
- Despliegue on-premise Hortonworks Data Platform & Flow (I)
- Arquitectura de Ambari
- Arquitecturas de Big Data
- Arquitecturas de Cloud Computing
- Tecnologías sobre Big Data
- Infraestructura de Almacenamiento y Procesamiento
- Hadoop como Ecosistema de Almacenamiento
- Trabajando de manera distribuida sobre un Clúster
- Hadoop como Estándar en el Mundo del Big Data
- HDFS como Motor de Almacenamiento
- YARN como Gestor de Recursos
- MapReduce Vs Spark como Motor de Procesamient
- Preparación de Entornos
- Capacidad Física de un Clúster
- Distribuciones Hadoop
- Enfoque Arquitectónico y Tecnologías Auxiliares para Desplegar Clúster On-Premise
- ¿Cómo Obtener Distribuciones de Hadoop para Desplegar Nuestro Propio Clúster On-Premise?
TECNOLOGÍAS DE ORQUESTACIÓN
- Accediendo a las Imágenes de Virtualización para Docker de Hortonworks
- Accediendo a las Imágenes de Virtualización para VirtualBox y VMWare de Cloudera
- Desplegando de forma Optimizada los Clúster de HDP y DHF
- Desplegando Cloudera en VirtualBox y VMWare
MÓDULO 2: Procesamiento Distribuido con Hive
- Alternativas de Orquestación en Atención al Data Pipeline
- Enfoque y Objetivos de la Herramienta de Orquestación del Programa de Data Engineer en NextCollege
- Hive como Infraestructura de Almacenamiento
- SQL sobre Spark
- Archivos de HDFS como Tablas Hive
- Particionamiento Estático y Dinámico
- Formatos binarios de archivos: Parquet, Delta
- Configuración y Tuneo de Procesos en Hive
- Sqoop como Motor de Ingesta de Datos
- Importando Datos a Hadoop a bases de Datos Relacionales
- Arquetipo de Ingesta de Datos Batch
- Arquetipo de Modelamiento de Datos
- Arquetipo de Procesamiento de Datos
MÓDULO 3: Big Data en AWS
- Servicios de Big Data disponibles en AWS
- Arquitectura de Big Data sobre AWS
- Implementación de un Data Lake para gobierno de Datos sobre AWS
- Ingesta y Almacenamiento de Datos sobre el S3
- Interfaz SQL de AWS con Athena
- Implementación de flujos ETL con GLue
- Infraestructura para Clúster de Big Data con EMR
- Implementación de Flujos ETL con Glue
- Infraestructura para Clúster de Big Data con EMR
- Implementación de soluciones con Spark para EMR
- Despliegues y Workflows con Workflows for Glue y Step Functions
MÓDULO 4: Big Data en AZURE
- Servicios de Big Data disponibles en Azure
- Arquitectura de Big Data sobre Azure
- Implementación de un Data Lake para Gobierno de Datos sobre Azure
- Ingesta y Almacenamiento de Datos sobre el Blob Storage
- Datasets sobre Data Factory
- Implementación de Flujos ETL con Dataflow
- Infraestructura para Clústers de Big Data con HDInsight
- Implementación de Soluciones con Spark para HDInsight
- Despliegues y Workflows con Data Factory
MÓDULO 5: Big Data en GCP
- Servicios de Big Data disponibles en GCP
- Arquitectura de Big Data sobre GCP
- Implementación de un Data Lake para Gobierno de Datos sobre GCP
- Ingesta y Almacenamiento de Datos sobre el Cloud Storage
- Interfaz SQL de GCP con Bigquery
- Implementación de Flujos ETL con Data Fusion
- Infraestructura para Clúster de Big Data con Dataproc
- Implementación de Soluciones con Spark para Dataproc
- Despliegues y Workflows con Cloud Composer
MÓDULO 6: Git & Git Hub Fundamentals
- Introducción a Git y GitHub
- Bifurcando Repositorios de Terceros
- Definiendo Estrategia de Control de Versiones
- Creando Ramas de Tipo Branches
- Creando Ramas de Tipo Tag
- Trabajando de Forma Colaborativa
- Seguridad en Proyectos Colaborativos
- Automatizando Tareas en GitHub
- Herramientas de Monitoreo y Gestión
- Herramientas de Sincronización
- Buenas Prácticas al documentar los Repositorios
- Tecnologías Subyacentes y Complementarias
- Git en AWS, AZURE y GCP
PYTHON DATA WRANGLING
- Introducción a Python
- Análisis de datos con Python
- Desarrollando algoritmos con Numpy
- Desarrollando algoritmos con Pandas
- Entendiendo la Estadística Inferencial
- Entendiendo la Estadística Descriptiva
- Aprendiendo sobre los secretos ocultos del Data Wrangling
- Web Scraping básico y avanzado para la recopilación de datos
- Python y bases de datos de tipo RDBMS
MÓDULO 7: Tecnologías APIs
- Entendiendo los APIs y sus tipos
- Ejemplo de una API en un sitio real
- Tipos de pruebas de AP I
- Postman como herramienta de testing
- Anatomía de una API Request
- Manejo de Coleccione s
- Manejando los verbos de tipo HTTP
- Manejo de variables en Postman
- Creación de Postman monitors
- Automatización de pruebas
- Integración de Postman tests en pipelines de Azure
API CON PYTHON
- ¿Qué es Newman? Y sus beneficios para correr pruebas automáticas
- Mecanismos o tipos de autenticación y autorización
- Construcción de un API con Python
- Probando nuestro API con los principales verbos HTTP
- Probando nuestro API Python en un Data pipeline en Azure
MÓDULO 8: Procesamiento Real-Time sobre Big Data
- ¿Qué es Apache Kakfa?
- Apache Kafka Straming (Real-Time)
- Arquitectura y Despliegue local
- Preparando Pentaho Data Integration (PDI)
- ¿Streaming, Real Time, Near Real Time o Micro Batch?
- Arquitectura General para Proyectos Real Time
- Captura de Datos desde fuentes Real Time: Tormenta de Datos
- La Elasticidad en la Capa de Captura y Procesamiento
- La Importancia de la Parelización Elástica Evitando el Colapso de CPU
- Kafka como Repositorio Temporal de baja latencia
- Tópico, Producers y Consumers
- Tuning de Tópicos
- Spark Streaming
- Arquetipo de procesamiento Real Time
- Arquetipo enriquecimiento Real Time
- Limitaciones y cómo superarlas
SQL & NoSQL | KSQL
- Diferencias entre SQL & NoSQL
- Tipos de Bases de Datos NoSQL
- ¿Qué Base de Datos NoSQL me conviene utilizar en mi proyecto?
- Uso práctico de Casandra y Mongo DB on- premise y on-Cloud
- DynamoDB y el uso de RDS
Cheat Sheet
- Cloud Comparison Cheat Sheet