Domina el Universo de los Datos
Transforma tu carrera profesional y conviértete en un experto en la gestión y análisis de datos. Aprende las tecnologías que lideran la industria con un enfoque 100% práctico.
¿A Quién va Dirigido?
Este diplomado está diseñado para profesionales de todas las áreas, emprendedores, tecnólogos, técnicos y estudiantes que deseen afianzar sus conocimientos en el manejo de datos y que estén interesados en dar un paso adelante en la analítica y la ciencia de datos.
Objetivos de Aprendizaje
Objetivo General
Proporcionar a los participantes las competencias que les permitan el manejo de datos con Python, así como la administración, gestión y consulta de bases de datos relacionales y ecosistemas Big Data, utilizando plataformas líderes como Microsoft SQL Server y Databricks para potenciar sus perfiles en Ingeniería de Datos y Machine Learning a escala.
Objetivos Específicos
- Manejar el lenguaje de programación Python y sus librerías esenciales (Pandas) para la limpieza y preparación de datos.
- Diseñar, administrar y gestionar bases de datos relacionales con comandos SQL avanzados (DCL, DDL, DML, Funciones de Ventana).
- Administrar y gestionar ecosistemas de Big Data en la nube con Databricks, Apache Spark y Unity Catalog (Lakehouse).
- Construir pipelines de datos (ETL) fiables usando el formato Delta Lake y automatización con DLT.
- Aplicar algoritmos de Machine Learning (regresión, clasificación) a volúmenes masivos de datos utilizando el framework Spark MLlib.
Explora Nuestro Plan de Estudios
Temas: Tipos y estructuras de datos, Programación Orientada a Objetos, librerías Numpy y Pandas, conexión a bases de datos y visualización con Matplotlib y Seaborn.
Temas: Introducción a bases de datos relacionales, comandos DDL, DML y DCL. Creación y uso de Vistas, Funciones, Procedimientos Almacenados y Triggers.
Temas: Introducción a Big Data y el ecosistema Hadoop. Manejo de la plataforma Databricks, RDDs, Dataframes, Spark SQL y Machine Learning con Spark.
Temas: Fundamentos de ML Distribuido, Ingeniería de Características a Escala, Pipelines MLlib, Modelos de Regresión y Clasificación, Optimización (Tuning) y Gestión del Ciclo de Vida con MLflow.
Plan de Estudios Completo (17 Capítulos)
Sección 0: Instalación y Entorno
Actividad Sincrónica - 15 Dic
Orquestación con Docker Compose y despliegue del stack profesional.
RETO DE INGENIERÍA (ASINCRÓNICO):
"Dominar Poetry: Investigar por qué pip falla en entornos grandes y resolver el reto de sincronizar el poetry.lock tras agregar librerías de conexión SQL."
Capítulo 1: Python Core e I/O
Lógica funcional, manejo de excepciones y I/O de archivos.
Capítulo 2: Pandas Pro
Vectorización, transformaciones complejas y `apply` vs `map`.
Capítulo 3: Visualización
Storytelling con datos y conexión a motores relacionales.
Capítulo 4: Taller ETL
Construcción de tuberías Python -> SQL Server.
Capítulo 5: Diseño SQL
Normalización, Modelado Relacional y restricciones.
Capítulo 6: DDL y JOINs
CRUD avanzado y teoría de conjuntos aplicada a SQL.
Capítulo 7: OLAP/Ventana
Analítica avanzada con RANK, LEAD, LAG y CTEs.
Capítulo 8: Optimización
Tuning, Índices Clustered vs Non-Clustered.
Capítulo 9: Spark Core
Arquitectura distribuida, particionamiento y Shuffling.
Capítulo 10: Ingesta
Unity Catalog y carga de datos a Delta Lake.
Capítulo 11: Medallion
Arquitectura de capas: Bronce, Plata y Oro.
Capítulo 12: DLT
Pipelines declarativos y fiabilidad del dato.
Capítulo 13: Spark ML
ML distribuido y creación de Pipelines con VectorAssembler.
Capítulo 14: Regresión
Modelos predictivos y regularización de pérdida.
Capítulo 15: Tuning
Optimización de modelos y validación cruzada.
Capítulo 16: MLOps
Registro de modelos y experimentos con MLflow.
Capítulo 17: Clausura
Presentación final de la arquitectura de datos.
Ver Detalles Finales