HUB CENTRAL

SECCIÓN 14.Regression()

MODELOS PREDICTIVOS Y REGULARIZACIÓN

PREDICTIVE MODELS

De Mínimos Cuadrados a Optimización Distribuida

Domina regresión lineal y logística en Big Data. Desde la derivación matemática hasta implementación en Spark ML.
Aprende a regularizar modelos para prevenir overfitting con L1/L2.

01. ¿Por qué Regresión en Big Data?

En estadística clásica, calculas \(\hat{\beta} = (X^T X)^{-1} X^T y\) en memoria. Con 10 mil millones de transacciones, \(X^T X\) requiere operaciones que no caben en RAM.

Ejemplo: Predicción de Demanda

Dataset: 10B transacciones, 500 features
Objetivo: Predecir demanda del próximo trimestre
Problema: X^T X es 500×500, pero calcularlo con 10B filas requiere reducción masiva
Solución Spark: Gradiente descendente distribuido en cluster de 100 nodos
Comparación: Solución Analítica vs Iterativa
$$ \begin{aligned} \text{Analítica: } & \hat{\beta} = (X^T X)^{-1} X^T y \\[0.5em] & \text{Complejidad: } O(np^2 + p^3) \\[1em] \text{Iterativa (GD): } & \beta^{(t+1)} = \beta^{(t)} - \alpha \nabla J(\beta^{(t)}) \\[0.5em] & \text{Complejidad por iter: } O(np) \end{aligned} $$
Con \(n = 10^{10}\), el método analítico falla. Gradiente descendente escala linealmente.

Cuándo usar cada enfoque

Método Mejor si...
Analítica n < 10M, p < 1000
Gradiente n > 100M, cualquier p

02. Tipos de Regresión en Spark ML

Regresión Lineal

$$ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \epsilon $$

Variable objetivo: Continua (ℝ)
Ejemplos: Precio, temperatura, demanda

LinearRegression(...)

Regresión Logística

$$ P(y=1|x) = \frac{1}{1 + e^{-\beta^T x}} $$

Variable objetivo: Binaria (0/1)
Ejemplos: Compra/No compra, Fraude/Legítimo

LogisticRegression(...)

GLM (Generalizada)

$$ g(\mu) = \beta^T x $$

Variable objetivo: Diversas distribuciones
Ejemplos: Counts (Poisson), Gamma

GeneralizedLinearRegression(...)

Tabla Comparativa

Modelo Función de Enlace Distribución Y Rango Y
Lineal Identidad: g(μ) = μ Normal (-∞, +∞)
Logística Logit: g(μ) = log(μ/(1-μ)) Bernoulli {0, 1}
Poisson Log: g(μ) = log(μ) Poisson {0, 1, 2, ...}
Gamma Inversa: g(μ) = 1/μ Gamma (0, +∞)

03. El Problema del Overfitting

Bias-Variance Tradeoff

$$ \begin{aligned} \text{Error Esperado} &= \text{Bias}^2 + \text{Variance} + \text{Irreducible Noise} \\[0.5em] \text{Bias}^2 &= (\mathbb{E}[\hat{f}(x)] - f(x))^2 \\[0.5em] \text{Variance} &= \mathbb{E}[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2] \end{aligned} $$
Alto Bias: Modelo muy simple (underfitting)
Ejemplo: Regresión lineal para relación cuadrática
Alta Variance: Modelo muy complejo (overfitting)
Ejemplo: Polinomio grado 20 para 30 datos
Balance Óptimo: Regularización (Ridge/Lasso)
Controla complejidad sin perder capacidad predictiva

Gráfico Conceptual

graph TD A[Complejidad del Modelo] --> B{Balance} B -->|Muy Simple| C[Alto Bias
Underfitting] B -->|Muy Complejo| D[Alta Variance
Overfitting] B -->|Óptimo| E[Generalización
✓ Balance] style C fill:#DC2626,stroke:#fff style D fill:#EAB308,stroke:#fff style E fill:#10b981,stroke:#fff
Síntomas de Overfitting:
  • • Training error ≈ 0, Test error alto
  • • Coeficientes β muy grandes (inestables)
  • • Sensible a pequeños cambios en datos
  • • Modelo memoriza ruido, no patrones reales

🔗 Conexión con Regularización

En los próximos módulos aprenderás cómo Ridge (L2) y Lasso (L1) controlan variance penalizando coeficientes grandes. La regularización es la herramienta matemática que balancea bias-variance.

$$ J_{\text{regularizado}}(\beta) = \underbrace{\text{MSE}(\beta)}_{\text{Ajuste a datos}} + \underbrace{\lambda \, \text{Penalty}(\beta)}_{\text{Controla complejidad}} $$

📚 Módulos de Aprendizaje