Capítulo 14: Regresión

De Mínimos Cuadrados a Optimización Distribuida

Domina regresión lineal y logística en Big Data. Desde la derivación matemática hasta implementación en Spark ML.
Aprende a regularizar modelos para prevenir overfitting con L1/L2.

01. ¿Por qué Regresión en Big Data?

En estadística clásica, calculas \(\hat{\beta} = (X^T X)^{-1} X^T y\) en memoria. Con 10 mil millones de transacciones, \(X^T X\) requiere operaciones que no caben en RAM.

Ejemplo: Predicción de Demanda

Dataset: 10B transacciones, 500 features
Objetivo: Predecir demanda del próximo trimestre

Problema: X^T X es 500×500, pero calcularlo con 10B filas requiere reducción masiva

Solución Spark: Gradiente descendente distribuido en cluster de 100 nodos

Comparación: Solución Analítica vs Iterativa $$ \begin{aligned} \text{Analítica: } & \hat{\beta} = (X^T X)^{-1} X^T y \\[0.5em] & \text{Complejidad: } O(np^2 + p^3) \\[1em] \text{Iterativa (GD): } & \beta^{(t+1)} = \beta^{(t)} - \alpha \nabla J(\beta^{(t)}) \\[0.5em] & \text{Complejidad por iter: } O(np) \end{aligned} $$ Con \(n = 10^{10}\), el método analítico falla. Gradiente descendente escala linealmente.

Cuándo usar cada enfoque

Método	Mejor si...
Analítica	n < 10M, p < 1000
Gradiente	n > 100M, cualquier p

02. Tipos de Regresión en Spark ML

Regresión Lineal

y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \epsilon

Variable objetivo: Continua (ℝ)
Ejemplos: Precio, temperatura, demanda


                        LinearRegression(...)

Regresión Logística

P(y=1|x) = \frac{1}{1 + e^{-\beta^T x}}

Variable objetivo: Binaria (0/1)
Ejemplos: Compra/No compra, Fraude/Legítimo


                        LogisticRegression(...)

GLM (Generalizada)

g(\mu) = \beta^T x

Variable objetivo: Diversas distribuciones
Ejemplos: Counts (Poisson), Gamma


                        GeneralizedLinearRegression(...)

Tabla Comparativa

Modelo	Función de Enlace	Distribución Y	Rango Y
Lineal	Identidad: g(μ) = μ	Normal	(-∞, +∞)
Logística	Logit: g(μ) = log(μ/(1-μ))	Bernoulli	{0, 1}
Poisson	Log: g(μ) = log(μ)	Poisson	{0, 1, 2, ...}
Gamma	Inversa: g(μ) = 1/μ	Gamma	(0, +∞)

03. El Problema del Overfitting

Bias-Variance Tradeoff

\begin{aligned} \text{Error Esperado} &= \text{Bias}^2 + \text{Variance} + \text{Irreducible Noise} \\[0.5em] \text{Bias}^2 &= (\mathbb{E}[\hat{f}(x)] - f(x))^2 \\[0.5em] \text{Variance} &= \mathbb{E}[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2] \end{aligned}

Alto Bias: Modelo muy simple (underfitting)
Ejemplo: Regresión lineal para relación cuadrática

Alta Variance: Modelo muy complejo (overfitting)
Ejemplo: Polinomio grado 20 para 30 datos

Balance Óptimo: Regularización (Ridge/Lasso)
Controla complejidad sin perder capacidad predictiva

Gráfico Conceptual

graph TD A[Complejidad del Modelo] --> B{Balance} B -->|Muy Simple| C[Alto Bias
Underfitting] B -->|Muy Complejo| D[Alta Variance
Overfitting] B -->|Óptimo| E[Generalización
✓ Balance] style C fill:#DC2626,stroke:#fff style D fill:#EAB308,stroke:#fff style E fill:#10b981,stroke:#fff

Síntomas de Overfitting:

• Training error ≈ 0, Test error alto
• Coeficientes β muy grandes (inestables)
• Sensible a pequeños cambios en datos
• Modelo memoriza ruido, no patrones reales

🔗 Conexión con Regularización

En los próximos módulos aprenderás cómo Ridge (L2) y Lasso (L1) controlan variance penalizando coeficientes grandes. La regularización es la herramienta matemática que balancea bias-variance.

J_{\text{regularizado}}(\beta) = \underbrace{\text{MSE}(\beta)}_{\text{Ajuste a datos}} + \underbrace{\lambda \, \text{Penalty}(\beta)}_{\text{Controla complejidad}}

📚 Módulos de Aprendizaje

CORE

1. Regresión Lineal y Logística

Derivación completa desde función de costo hasta gradiente. Interpretación geométrica, métricas de evaluación, y solvers en Spark.

6 bloques de contenido

REGULARIZACIÓN

2. Regularización L1/L2

Ridge, Lasso, y Elastic Net. Geometría de restricciones, selección de λ con cross-validation, y comparación visual de paths.

7 bloques de contenido

RETO

3. Reto: Bias-Variance

Diagnostica y corrige overfitting en predicción de precios. Curvas de aprendizaje, aplicación de Ridge/Lasso, y análisis de residuales.

Reto de Ingeniería Completo