De Mínimos Cuadrados a Optimización Distribuida
Domina regresión lineal y logística en Big Data. Desde la derivación matemática hasta implementación en Spark ML.
Aprende a regularizar modelos para prevenir overfitting con L1/L2.
01. ¿Por qué Regresión en Big Data?
En estadística clásica, calculas \(\hat{\beta} = (X^T X)^{-1} X^T y\) en memoria. Con 10 mil millones de transacciones, \(X^T X\) requiere operaciones que no caben en RAM.
Ejemplo: Predicción de Demanda
Objetivo: Predecir demanda del próximo trimestre
Cuándo usar cada enfoque
| Método | Mejor si... |
|---|---|
| Analítica | n < 10M, p < 1000 |
| Gradiente | n > 100M, cualquier p |
02. Tipos de Regresión en Spark ML
Regresión Lineal
Variable objetivo: Continua (ℝ)
Ejemplos: Precio, temperatura, demanda
LinearRegression(...)
Regresión Logística
Variable objetivo: Binaria (0/1)
Ejemplos: Compra/No compra, Fraude/Legítimo
LogisticRegression(...)
GLM (Generalizada)
Variable objetivo: Diversas distribuciones
Ejemplos: Counts (Poisson), Gamma
GeneralizedLinearRegression(...)
Tabla Comparativa
| Modelo | Función de Enlace | Distribución Y | Rango Y |
|---|---|---|---|
| Lineal | Identidad: g(μ) = μ | Normal | (-∞, +∞) |
| Logística | Logit: g(μ) = log(μ/(1-μ)) | Bernoulli | {0, 1} |
| Poisson | Log: g(μ) = log(μ) | Poisson | {0, 1, 2, ...} |
| Gamma | Inversa: g(μ) = 1/μ | Gamma | (0, +∞) |
03. El Problema del Overfitting
Bias-Variance Tradeoff
Ejemplo: Regresión lineal para relación cuadrática
Ejemplo: Polinomio grado 20 para 30 datos
Controla complejidad sin perder capacidad predictiva
Gráfico Conceptual
Underfitting] B -->|Muy Complejo| D[Alta Variance
Overfitting] B -->|Óptimo| E[Generalización
✓ Balance] style C fill:#DC2626,stroke:#fff style D fill:#EAB308,stroke:#fff style E fill:#10b981,stroke:#fff
- • Training error ≈ 0, Test error alto
- • Coeficientes β muy grandes (inestables)
- • Sensible a pequeños cambios en datos
- • Modelo memoriza ruido, no patrones reales
🔗 Conexión con Regularización
En los próximos módulos aprenderás cómo Ridge (L2) y Lasso (L1) controlan variance penalizando coeficientes grandes. La regularización es la herramienta matemática que balancea bias-variance.
📚 Módulos de Aprendizaje
1. Regresión Lineal y Logística
Derivación completa desde función de costo hasta gradiente. Interpretación geométrica, métricas de evaluación, y solvers en Spark.
2. Regularización L1/L2
Ridge, Lasso, y Elastic Net. Geometría de restricciones, selección de λ con cross-validation, y comparación visual de paths.
3. Reto: Bias-Variance
Diagnostica y corrige overfitting en predicción de precios. Curvas de aprendizaje, aplicación de Ridge/Lasso, y análisis de residuales.