-
Presentación del Programa Completo Data Engineer I y II
-
TECNOLOGIAS AUXILIARES
-
Sesión 1 - Completo en Vivo
-
Sesión 2 - Completo en Vivo
-
Sesión 3 - Completo en Vivo
- Unirse a este curso para acceder a recursos
-
Sesion 4 - Completo en Vivo
-
Sesion 5 - Completo en Vivo
- Unirse a este curso para acceder a recursos
-
Sesion 6 - Completo en Vivo
-
Sesion 7 - Completo en Vivo
-
Sesion 8 - Completo en Vivo
-
¿Que es Docker?
-
Instalacion de Docker Container
-
Como funciona Docker
-
Containers en Sistemas Operativos
-
Como se crea un docker container
-
Comandos en Docker Run
-
Comandos para Listar Containers
-
Ciclo de vida de un container
-
Stop y Kill Containers
-
Laboratorio con Redis y Acceso a Shell
-
Acceso a Shell con Docker Run
-
Creacion de imagenes con Docker
-
-
Preparando Ambientes de Trabajo (On-Premise/On-Cloud)
-
Preparando nuestro ambiente Virtualizado I
- Unirse a este curso para acceder a recursos
-
Desplegando HDP Virtualización I (HDP)
- Unirse a este curso para acceder a recursos
-
Descarga HDP-HDF
-
Desplegando HDP Virtualización II (HDF)
-
Instalar/Habilitar Google Colaboratory/Colab
-
Desplegando Hadoop on-cloud (I)
- Unirse a este curso para acceder a recursos
-
Desplegando CDH Virtualización
- Unirse a este curso para acceder a recursos
-
-
MÓDULO 1: Arquitectura de Big Data
-
Entendiendo el entorno Pseudo-Distribuido HDP-HDF
- Unirse a este curso para acceder a recursos
-
Entendiendo la necesidad del Sanbox-Proxy
-
Demo en vivo & Arquitectura de Cloudera
- Unirse a este curso para acceder a recursos
-
Despliegue on-premise Hortonworks Data Platform & Flow (I)
- Unirse a este curso para acceder a recursos
-
Arquitectura de Ambari
-
Arquitecturas de Big Data
-
Arquitecturas de Cloud Computing
-
Tecnologías sobre Big Data
-
Infraestructura de Almacenamiento y Procesamiento
-
Hadoop como Ecosistema de Almacenamiento
-
Trabajando de manera distribuida sobre un Clúster
-
Hadoop como Estándar en el Mundo del Big Data
-
HDFS como Motor de Almacenamiento
-
YARN como Gestor de Recursos
-
MapReduce Vs Spark como Motor de Procesamient
-
Preparación de Entornos
-
Capacidad Física de un Clúster
-
Distribuciones Hadoop
-
Enfoque Arquitectónico y Tecnologías Auxiliares para Desplegar Clúster On-Premise
-
¿Cómo Obtener Distribuciones de Hadoop para Desplegar Nuestro Propio Clúster On-Premise?
-
TECNOLOGÍAS DE ORQUESTACIÓN
-
Accediendo a las Imágenes de Virtualización para Docker de Hortonworks
-
Accediendo a las Imágenes de Virtualización para VirtualBox y VMWare de Cloudera
-
Desplegando de forma Optimizada los Clúster de HDP y DHF
-
Desplegando Cloudera en VirtualBox y VMWare
-
-
MÓDULO 2: Procesamiento Distribuido con Hive
-
Alternativas de Orquestación en Atención al Data Pipeline
-
Enfoque y Objetivos de la Herramienta de Orquestación del Programa de Data Engineer en NextCollege
-
Hive como Infraestructura de Almacenamiento
-
SQL sobre Spark
-
Archivos de HDFS como Tablas Hive
-
Particionamiento Estático y Dinámico
-
Formatos binarios de archivos: Parquet, Delta
-
Configuración y Tuneo de Procesos en Hive
-
Sqoop como Motor de Ingesta de Datos
-
Importando Datos a Hadoop a bases de Datos Relacionales
-
Arquetipo de Ingesta de Datos Batch
-
Arquetipo de Modelamiento de Datos
-
Arquetipo de Procesamiento de Datos
-
-
MÓDULO 3: Big Data en AWS
-
Servicios de Big Data disponibles en AWS
-
Arquitectura de Big Data sobre AWS
-
Implementación de un Data Lake para gobierno de Datos sobre AWS
-
Ingesta y Almacenamiento de Datos sobre el S3
-
Interfaz SQL de AWS con Athena
-
Implementación de flujos ETL con GLue
-
Infraestructura para Clúster de Big Data con EMR
-
Implementación de Flujos ETL con Glue
-
Infraestructura para Clúster de Big Data con EMR
-
Implementación de soluciones con Spark para EMR
-
Despliegues y Workflows con Workflows for Glue y Step Functions
-
-
MÓDULO 4: Big Data en AZURE
-
Servicios de Big Data disponibles en Azure
-
Arquitectura de Big Data sobre Azure
-
Implementación de un Data Lake para Gobierno de Datos sobre Azure
-
Ingesta y Almacenamiento de Datos sobre el Blob Storage
-
Datasets sobre Data Factory
-
Implementación de Flujos ETL con Dataflow
-
Infraestructura para Clústers de Big Data con HDInsight
-
Implementación de Soluciones con Spark para HDInsight
-
Despliegues y Workflows con Data Factory
-
-
MÓDULO 5: Big Data en GCP
-
Servicios de Big Data disponibles en GCP
-
Arquitectura de Big Data sobre GCP
-
Implementación de un Data Lake para Gobierno de Datos sobre GCP
-
Ingesta y Almacenamiento de Datos sobre el Cloud Storage
-
Interfaz SQL de GCP con Bigquery
-
Implementación de Flujos ETL con Data Fusion
-
Infraestructura para Clúster de Big Data con Dataproc
-
Implementación de Soluciones con Spark para Dataproc
-
Despliegues y Workflows con Cloud Composer
-
-
MÓDULO 6: Git & Git Hub Fundamentals
-
Introducción a Git y GitHub
-
Bifurcando Repositorios de Terceros
-
Definiendo Estrategia de Control de Versiones
-
Creando Ramas de Tipo Branches
-
Creando Ramas de Tipo Tag
-
Trabajando de Forma Colaborativa
-
Seguridad en Proyectos Colaborativos
-
Automatizando Tareas en GitHub
-
Herramientas de Monitoreo y Gestión
-
Herramientas de Sincronización
-
Buenas Prácticas al documentar los Repositorios
-
Tecnologías Subyacentes y Complementarias
-
Git en AWS, AZURE y GCP
-
-
PYTHON DATA WRANGLING
-
Introducción a Python
-
Análisis de datos con Python
-
Desarrollando algoritmos con Numpy
-
Desarrollando algoritmos con Pandas
-
Entendiendo la Estadística Inferencial
-
Entendiendo la Estadística Descriptiva
-
Aprendiendo sobre los secretos ocultos del Data Wrangling
-
Web Scraping básico y avanzado para la recopilación de datos
-
Python y bases de datos de tipo RDBMS
-
-
MÓDULO 7: Tecnologías APIs
-
Entendiendo los APIs y sus tipos
-
Ejemplo de una API en un sitio real
-
Tipos de pruebas de AP I
-
Postman como herramienta de testing
-
Anatomía de una API Request
-
Manejo de Coleccione s
-
Manejando los verbos de tipo HTTP
-
Manejo de variables en Postman
-
Creación de Postman monitors
-
Automatización de pruebas
-
Integración de Postman tests en pipelines de Azure
-
-
API CON PYTHON
-
¿Qué es Newman? Y sus beneficios para correr pruebas automáticas
-
Mecanismos o tipos de autenticación y autorización
-
Construcción de un API con Python
-
Probando nuestro API con los principales verbos HTTP
-
Probando nuestro API Python en un Data pipeline en Azure
-
-
MÓDULO 8: Procesamiento Real-Time sobre Big Data
-
¿Qué es Apache Kakfa?
-
Apache Kafka Straming (Real-Time)
-
Arquitectura y Despliegue local
-
Preparando Pentaho Data Integration (PDI)
-
¿Streaming, Real Time, Near Real Time o Micro Batch?
-
Arquitectura General para Proyectos Real Time
-
Captura de Datos desde fuentes Real Time: Tormenta de Datos
-
La Elasticidad en la Capa de Captura y Procesamiento
-
La Importancia de la Parelización Elástica Evitando el Colapso de CPU
-
Kafka como Repositorio Temporal de baja latencia
-
Tópico, Producers y Consumers
-
Tuning de Tópicos
-
Spark Streaming
-
Arquetipo de procesamiento Real Time
-
Arquetipo enriquecimiento Real Time
-
Limitaciones y cómo superarlas
-
-
SQL & NoSQL | KSQL
-
Diferencias entre SQL & NoSQL
-
Tipos de Bases de Datos NoSQL
-
¿Qué Base de Datos NoSQL me conviene utilizar en mi proyecto?
-
Uso práctico de Casandra y Mongo DB on- premise y on-Cloud
-
DynamoDB y el uso de RDS
-
-
Cheat Sheet
-
Cloud Comparison Cheat Sheet
-