Diplomado en Estrategias de Datos con Python, SQL y Big Data

¿A Quién va Dirigido?

Este diplomado está diseñado para profesionales de todas las áreas, emprendedores, tecnólogos, técnicos y estudiantes que deseen afianzar sus conocimientos en el manejo de datos y que estén interesados en dar un paso adelante en la analítica y la ciencia de datos.

Objetivos de Aprendizaje

Objetivo General

Proporcionar a los participantes las competencias que les permitan el manejo de datos con Python, así como la administración, gestión y consulta de bases de datos relacionales y ecosistemas Big Data, utilizando plataformas líderes como Microsoft SQL Server y Databricks para potenciar sus perfiles en Ingeniería de Datos y Machine Learning a escala.

Objetivos Específicos

Manejar el lenguaje de programación Python y sus librerías esenciales (Pandas) para la limpieza y preparación de datos.
Diseñar, administrar y gestionar bases de datos relacionales con comandos SQL avanzados (DCL, DDL, DML, Funciones de Ventana).
Administrar y gestionar ecosistemas de Big Data en la nube con Databricks, Apache Spark y Unity Catalog (Lakehouse).
Construir pipelines de datos (ETL) fiables usando el formato Delta Lake y automatización con DLT.
Aplicar algoritmos de Machine Learning (regresión, clasificación) a volúmenes masivos de datos utilizando el framework Spark MLlib.

Explora Nuestro Plan de Estudios

Módulo 1: Introducción a bases de datos con Python

Temas: Tipos y estructuras de datos, Programación Orientada a Objetos, librerías Numpy y Pandas, conexión a bases de datos y visualización con Matplotlib y Seaborn.

Módulo 2: Bases de Datos MICROSOFT SQL SERVER

Temas: Introducción a bases de datos relacionales, comandos DDL, DML y DCL. Creación y uso de Vistas, Funciones, Procedimientos Almacenados y Triggers.

Módulo 3: Databricks y Apache Spark para Big Data

Temas: Introducción a Big Data y el ecosistema Hadoop. Manejo de la plataforma Databricks, RDDs, Dataframes, Spark SQL y Machine Learning con Spark.

Módulo 4: Machine Learning Escalable con Spark ML

Temas: Fundamentos de ML Distribuido, Ingeniería de Características a Escala, Pipelines MLlib, Modelos de Regresión y Clasificación, Optimización (Tuning) y Gestión del Ciclo de Vida con MLflow.

Plan de Estudios Completo (17 Capítulos)

Sección 0: Instalación y Entorno

Actividad Sincrónica - 15 Dic

→ Ver Guía

Orquestación con Docker Compose y despliegue del stack profesional.

RETO DE INGENIERÍA (ASINCRÓNICO):

"Dominar Poetry: Investigar por qué pip falla en entornos grandes y resolver el reto de sincronizar el poetry.lock tras agregar librerías de conexión SQL."

→ Acceder al Repositorio Base (GitHub) → Ver Material de Apoyo en NotebookLM

Capítulo 1: Python Core e I/O

Módulo 1: Python

Lógica funcional, manejo de excepciones y I/O de archivos.

Reto de Ingeniería: "The Bronze Ingestor": Construye un pipeline robusto para clasificar archivos corruptos vs. válidos. → Acceder al Repositorio del Reto (GitHub)

Ver Contenido

Capítulo 2: Pandas Pro

Módulo 1: Python

Vectorización, transformaciones complejas y `apply` vs `map`.

Reto: Recibir un dataset de +1M filas y reducir memoria en 50% con downcasting. → Acceder al Repositorio del Reto (GitHub)

Ver Contenido

Capítulo 3: Visualización

Módulo 1: Python

Storytelling con datos y conexión a motores relacionales.

Reto: Función que genere automáticamente reporte PDF de calidad de datos (nulos/outliers). → Acceder al Repositorio del Reto (GitHub)

Ver Contenido

Capítulo 4: Taller ETL

Módulo 1: Python

Construcción de tuberías Python -> SQL Server.

Reto: Pipeline con transacciones y Checkpoints (Rollback total si falla).

Ver Contenido

Capítulo 5: Diseño SQL

Módulo 2: SQL Server

Normalización, Modelado Relacional y restricciones.

Reto: Ingeniería Inversa: CSV denormalizado a esquema 3NF documentado.

→ Repositorio GitHub → Asistente IA (NotebookLM)

Ver Contenido

Capítulo 6: DDL y JOINs

Módulo 2: SQL Server

CRUD avanzado y teoría de conjuntos aplicada a SQL.

Reto: Performance: CROSS JOIN vs INNER JOIN optimizado.

→ Repositorio GitHub → Asistente IA (NotebookLM)

Ver Contenido

Capítulo 7: OLAP/Ventana

Módulo 2: SQL Server

Analítica avanzada con RANK, LEAD, LAG y CTEs.

Reto: Consulta única para Crecimiento MoM y Acumulado YTD.

→ Repositorio GitHub → Asistente IA (NotebookLM)

Ver Contenido

Capítulo 8: Optimización

Módulo 2: SQL Server

Tuning, Índices Clustered vs Non-Clustered.

Reto: Forzar Index Scan vs Index Seek y documentar costo computacional.

Ver Contenido

Capítulo 9: Spark Core

Módulo 3: Spark

Arquitectura distribuida, particionamiento y Shuffling.

Reto: Shuffle Challenge: Explicar Wide vs Narrow transformations y particionamiento.

Ver Contenido

Capítulo 10: Ingesta

Módulo 3: Spark

Unity Catalog y carga de datos a Delta Lake.

Reto: Esquema Evolutivo: Resolver fallos por cambio de estructura con mergeSchema.

Ver Contenido

Capítulo 11: Medallion

Módulo 3: Spark

Arquitectura de capas: Bronce, Plata y Oro.

Reto: Data Quality Gate: Reglas de validación para desviar filas corruptas a "Cuarentena".

Ver Contenido

Capítulo 12: DLT

Módulo 3: Spark

Pipelines declarativos y fiabilidad del dato.

Reto: CDC (Change Data Capture): Simular carga incremental de registros modificados.

Ver Contenido

Capítulo 13: Spark ML

Módulo 4: ML Escalable

ML distribuido y creación de Pipelines con VectorAssembler.

Reto: One-Hot Encoding Manual: Entender matriz de dispersión sin librerías automáticas.

Ver Contenido

Capítulo 14: Regresión

Módulo 4: ML Escalable

Modelos predictivos y regularización de pérdida.

Reto: Bias-Variance: Entrenar modelo overfitted y aplicar Regularización L1/L2.

Ver Contenido

Capítulo 15: Tuning

Módulo 4: ML Escalable

Optimización de modelos y validación cruzada.

Reto: Hyperparameter Tuning: Grid Search paralelo en Spark para Random Forest.

Ver Contenido

Capítulo 16: MLOps

Módulo 4: ML Escalable

Registro de modelos y experimentos con MLflow.

Reto: Model Versioning: Consumir vía script la versión "Production" del modelo.

Ver Contenido

Capítulo 17: Clausura

Sustentación de Proyectos

Presentación final de la arquitectura de datos.

Ver Detalles Finales

Domina el Universo de los Datos

¿A Quién va Dirigido?

Objetivos de Aprendizaje

Objetivo General

Objetivos Específicos

Explora Nuestro Plan de Estudios

Plan de Estudios Completo (17 Capítulos)

Capítulo 1: Python Core e I/O

Capítulo 2: Pandas Pro

Capítulo 3: Visualización

Capítulo 4: Taller ETL

Capítulo 5: Diseño SQL

Capítulo 6: DDL y JOINs

Capítulo 7: OLAP/Ventana

Capítulo 8: Optimización

Capítulo 9: Spark Core

Capítulo 10: Ingesta

Capítulo 11: Medallion

Capítulo 12: DLT

Capítulo 13: Spark ML

Capítulo 14: Regresión

Capítulo 15: Tuning

Capítulo 16: MLOps

Capítulo 17: Clausura