Módulo 0 - Conceptos generales
Fundamentos de sistemas: terminal Linux y Bash, SSH, scripting, control de versiones con Git, Docker, expresiones regulares, entornos virtuales Python y gestión de tareas con Cron.
Módulo 0 - Conceptos generales
Fundamentos de sistemas: terminal Linux y Bash, SSH, scripting, control de versiones con Git, Docker, expresiones regulares, entornos virtuales Python y gestión de tareas con Cron.
Módulo 1 - Fundamentos y ecosistema
Objetivos: Entender la arquitectura, almacenamiento distribuido y computación paralela. Comprender los conceptos fundamentales del almacenamiento masivo de datos. Conocer las arquitecturas de procesamiento distribuido. Dominar las principales herramientas del ecosistema Hadoop. Implementar flujos de trabajo automatizados para procesamiento de datos. Desarrollar consultas y análisis sobre datos distribuidos. Contenidos: Arquitectura Hadoop y ecosistema. HDFS, WebDFS, dfsadmin, tolerancia a fallos. Computación distribuida con MapReduce.
Módulo 2 - Procesamiento avanzado con Spark y Kafka
Spark