Logo Universidad Santo Tomás

Diplomado en Estrategias de Datos

Domina el Universo de los Datos

Transforma tu carrera profesional y conviértete en un experto en la gestión y análisis de datos. Aprende las tecnologías que lideran la industria con un enfoque 100% práctico.

96 Horas Totales de Estudio. 16 Capítulos Fundamentales para un Perfil Experto.

¿A Quién va Dirigido?

Este diplomado está diseñado para profesionales de todas las áreas, emprendedores, tecnólogos, técnicos y estudiantes que deseen afianzar sus conocimientos en el manejo de datos y que estén interesados en dar un paso adelante en la analítica y la ciencia de datos.

Objetivos de Aprendizaje

Objetivo General

Proporcionar a los participantes las competencias que les permitan el manejo de datos con Python, así como la administración, gestión y consulta de bases de datos relacionales y ecosistemas Big Data, utilizando plataformas líderes como Microsoft SQL Server y Databricks para potenciar sus perfiles en Ingeniería de Datos y Machine Learning a escala.

Objetivos Específicos

  • Manejar el lenguaje de programación Python y sus librerías esenciales (Pandas) para la limpieza y preparación de datos.
  • Diseñar, administrar y gestionar bases de datos relacionales con comandos SQL avanzados (DCL, DDL, DML, Funciones de Ventana).
  • Administrar y gestionar ecosistemas de Big Data en la nube con Databricks, Apache Spark y Unity Catalog (Lakehouse).
  • Construir pipelines de datos (ETL) fiables usando el formato Delta Lake y automatización con DLT.
  • Aplicar algoritmos de Machine Learning (regresión, clasificación) a volúmenes masivos de datos utilizando el framework Spark MLlib.

Explora Nuestro Plan de Estudios

Temas: Tipos y estructuras de datos, Programación Orientada a Objetos, librerías Numpy y Pandas, conexión a bases de datos y visualización con Matplotlib y Seaborn.

Temas: Introducción a bases de datos relacionales, comandos DDL, DML y DCL. Creación y uso de Vistas, Funciones, Procedimientos Almacenados y Triggers.

Temas: Introducción a Big Data y el ecosistema Hadoop. Manejo de la plataforma Databricks, RDDs, Dataframes, Spark SQL y Machine Learning con Spark.

Temas: Fundamentos de ML Distribuido, Ingeniería de Características a Escala, Pipelines MLlib, Modelos de Regresión y Clasificación, Optimización (Tuning) y Gestión del Ciclo de Vida con MLflow.

Plan de Estudios Completo (17 Capítulos)

Sección 0: Instalación y Entorno

Actividad Sincrónica - 15 Dic

→ Ver Guía

Orquestación con Docker Compose y despliegue del stack profesional.

RETO DE INGENIERÍA (ASINCRÓNICO):

"Dominar Poetry: Investigar por qué pip falla en entornos grandes y resolver el reto de sincronizar el poetry.lock tras agregar librerías de conexión SQL."

Capítulo 1: Python Core e I/O

Módulo 1: Python

Lógica funcional, manejo de excepciones y I/O de archivos.

Reto de Ingeniería: "The Bronze Ingestor": Construye un pipeline robusto para clasificar archivos corruptos vs. válidos. → Acceder al Repositorio del Reto (GitHub)
Ver Contenido

Capítulo 2: Pandas Pro

Módulo 1: Python

Vectorización, transformaciones complejas y `apply` vs `map`.

Reto: Recibir un dataset de +1M filas y reducir memoria en 50% con downcasting. → Acceder al Repositorio del Reto (GitHub)
Ver Contenido

Capítulo 3: Visualización

Módulo 1: Python

Storytelling con datos y conexión a motores relacionales.

Reto: Función que genere automáticamente reporte PDF de calidad de datos (nulos/outliers). → Acceder al Repositorio del Reto (GitHub)
Ver Contenido

Capítulo 4: Taller ETL

Módulo 1: Python

Construcción de tuberías Python -> SQL Server.

Reto: Pipeline con transacciones y Checkpoints (Rollback total si falla).
Ver Contenido

Capítulo 5: Diseño SQL

Módulo 2: SQL Server

Normalización, Modelado Relacional y restricciones.

Reto: Ingeniería Inversa: CSV denormalizado a esquema 3NF documentado.
Ver Contenido

Capítulo 6: DDL y JOINs

Módulo 2: SQL Server

CRUD avanzado y teoría de conjuntos aplicada a SQL.

Reto: Performance: CROSS JOIN vs INNER JOIN optimizado.
Ver Contenido

Capítulo 7: OLAP/Ventana

Módulo 2: SQL Server

Analítica avanzada con RANK, LEAD, LAG y CTEs.

Reto: Consulta única para Crecimiento MoM y Acumulado YTD.
Ver Contenido

Capítulo 8: Optimización

Módulo 2: SQL Server

Tuning, Índices Clustered vs Non-Clustered.

Reto: Forzar Index Scan vs Index Seek y documentar costo computacional.
Ver Contenido

Capítulo 9: Spark Core

Módulo 3: Spark

Arquitectura distribuida, particionamiento y Shuffling.

Reto: Shuffle Challenge: Explicar Wide vs Narrow transformations y particionamiento.
Ver Contenido

Capítulo 10: Ingesta

Módulo 3: Spark

Unity Catalog y carga de datos a Delta Lake.

Reto: Esquema Evolutivo: Resolver fallos por cambio de estructura con mergeSchema.
Ver Contenido

Capítulo 11: Medallion

Módulo 3: Spark

Arquitectura de capas: Bronce, Plata y Oro.

Reto: Data Quality Gate: Reglas de validación para desviar filas corruptas a "Cuarentena".
Ver Contenido

Capítulo 12: DLT

Módulo 3: Spark

Pipelines declarativos y fiabilidad del dato.

Reto: CDC (Change Data Capture): Simular carga incremental de registros modificados.
Ver Contenido

Capítulo 13: Spark ML

Módulo 4: ML Escalable

ML distribuido y creación de Pipelines con VectorAssembler.

Reto: One-Hot Encoding Manual: Entender matriz de dispersión sin librerías automáticas.
Ver Contenido

Capítulo 14: Regresión

Módulo 4: ML Escalable

Modelos predictivos y regularización de pérdida.

Reto: Bias-Variance: Entrenar modelo overfitted y aplicar Regularización L1/L2.
Ver Contenido

Capítulo 15: Tuning

Módulo 4: ML Escalable

Optimización de modelos y validación cruzada.

Reto: Hyperparameter Tuning: Grid Search paralelo en Spark para Random Forest.
Ver Contenido

Capítulo 16: MLOps

Módulo 4: ML Escalable

Registro de modelos y experimentos con MLflow.

Reto: Model Versioning: Consumir vía script la versión "Production" del modelo.
Ver Contenido

Capítulo 17: Clausura

Sustentación de Proyectos

Presentación final de la arquitectura de datos.

Ver Detalles Finales