Tutorial Integrado
2026-05-01

Basado en los tutoriales CIRM de R.F. Barber (UChicago) y A. Dieuleveut (École Polytechnique)
Configuración estándar:
¿Predicción puntual o inferencia predictiva?
\[\underbrace{\hat{\mu}(X_{n+1})}_{\text{predicción puntual}} \quad \text{vs.} \quad \underbrace{Y_{n+1} \in \hat{\mu}(X_{n+1}) \pm \text{(margen)}}_{\text{intervalo de predicción}}\]
Incertidumbre importa
Misma predicción \(\hat{Y}\), tres fenómenos distintos. La incertidumbre transmite información fundamental.
Aplicaciones: meteorología, medicina, mercados financieros, visión por computadora
Paramétrico:
\[Y = X^\top\beta + \mathcal{N}(0,\sigma^2)\]
\(\Rightarrow\) Intervalo: \(X_{n+1}^\top\hat\beta \pm \cdots\)
No paramétrico: \(\hat{\mu}(x) =\) estimador suavizado de \(\mathbb{E}[Y|X=x]\)
ML / sobreparametrizado: Red neuronal en \(\{(X_i,Y_i)\}\), luego cuantificación basada en datos
¿Qué puede fallar?
Solución: métodos que no dependen de hipótesis (o sólo de hipótesis más débiles)
Idea ingenua: \(C(X_{n+1}) = \hat{\mu}(X_{n+1}) \pm \operatorname{Cuantil}_{1-\alpha}(|Y_i - \hat{\mu}(X_i)|_{i=1}^n)\)
Problema: sobreajuste
Si \(\hat{\mu}\) sobreajusta: el error de test supera al de entrenamiento. Simulación: cobertura en entrenamiento \(= 90\%\), cobertura en test \(= 78\%\)
Solución: conjunto de calibración (holdout)
\(\Rightarrow\) Cobertura en test \(\approx 89\%\) (bien calibrada, aunque intervalos más anchos)
Definición: Intercambiabilidad
Sea \(Z_i = (X_i, Y_i)\). Los datos \((Z_1,\ldots,Z_n)\) son intercambiables si, para toda permutación \(\sigma\):
\[ (Z_1, \ldots, Z_m) \overset{d}{=} (Z_{\sigma(1)}, \ldots, Z_{\sigma(m)}) \]
para todo \(m\) y toda permutación \(\sigma\).
El caso i.i.d.
Los datos i.i.d. son un caso especial.
Caso i.i.d. condicional
Los datos i.i.d. condicionalmente también son intercambiables. Secuencias finitas pueden ser intercambiables sin ser i.i.d.
Idea clave: la predicción conforme usa la intercambiabilidad como única hipótesis sobre los datos.
Lema del Cuantil
Si \((U_1,\ldots,U_n, U_{n+1})\) son intercambiables, entonces para \(\beta \in (0,1)\):
\[\mathbb{P}\!\left(U_{n+1} \le q_\beta(U_1,\ldots,U_n,+\infty)\right) \ge \beta\]
Además, si los \(U_i\) son casi-seguramente distintos:
\[\mathbb{P}\!\left(U_{n+1} \le q_\beta(U_1,\ldots,U_n,+\infty)\right) \le \beta + \frac{1}{n+1}\]
Demostración (cota inferior):
Por intercambiabilidad, \(\mathbb{P}(U_{n+1} \le q_\beta) = \mathbb{P}(U_i \le q_\beta)\) para todo \(i\). Luego:
\[\mathbb{P}(U_{n+1} \le q_\beta) = \frac{1}{n+1}\sum_{i=1}^{n+1}\mathbb{P}(U_i \le q_\beta) \ge \frac{\lceil\beta(n+1)\rceil}{n+1} \ge \beta\]
Este lema es la piedra angular de toda la teoría de predicción conforme.
Algoritmo SCP (Vovk et al., 2005)
Con datos de preentrenamiento \(Z_1,\ldots,Z_{n_0}\), ajustar modelo \(\hat{\mu} = \mathcal{A}(Z_1,\ldots,Z_{n_0})\)
Calcular el cuantil \(\hat{q}\) de los residuos en la calibración: \[\hat{q} = \operatorname{Cuantil}_{(1-\alpha)(1+1/n_1)}\!\bigl(\{|Y_i - \hat{\mu}(X_i)|\}_{n_0<i\le n}\bigr)\]
Para el punto de test \(n+1\), devolver: \[C(X_{n+1}) = \hat{\mu}(X_{n+1}) \pm \hat{q}\]
Ventaja: funciona con cualquier algoritmo de regresión Coste: \(\hat{\mu}\) menos preciso por la división
Teorema: Validez marginal de la SCP (Vovk et al., 2005)
Si \(Z_1,\ldots,Z_{n+1}\) son intercambiables, la predicción conforme particionada satisface:
\[\boxed{\mathbb{P}\{Y_{n+1} \in C(X_{n+1})\} \ge 1 - \alpha}\]
Si además los scores \(\{S_i\}_{i \in \text{Cal}} \cup \{S_{n+1}\}\) son c.s. distintos:
\[\mathbb{P}\{Y_{n+1} \in C(X_{n+1})\} \le 1 - \alpha + \frac{1}{n_1+1}\]
Idea de la demostración: \(S_i = |Y_i - \hat{\mu}(X_i)|\) para \(i \in \text{Cal}\cup\{n+1\}\). Como \(\hat{\mu}\) se ajusta sólo sobre preentrenamiento, los scores son intercambiables \(\Rightarrow\) Lema del Cuantil da la cota. \(\square\)
Garantía libre de distribución: válida para cualquier \(P\), sin supuestos paramétricos.
SCP general: en lugar de residuos absolutos, usar cualquier función de puntuación \(s: \mathcal{X}\times\mathcal{Y}\to\mathbb{R}\):
Algoritmo SCP (versión general)
Ejemplos de puntuación
Residuo simple: \[s(x,y) = |y - \hat{\mu}(x)|\]
Residuo escalado (Lei et al., 2018): \[s(x,y) = \frac{|y - \hat{\mu}(x)|}{\hat{\sigma}(x)}\]
\(\Rightarrow C(X_{n+1}) = \hat{\mu}(X_{n+1}) \pm \hat{q}\cdot\hat{\sigma}(X_{n+1})\)
Limitación del residuo simple
\(C(X_{n+1}) = \hat{\mu}(X_{n+1}) \pm \hat{q}\) tiene anchura constante: no se adapta a la heteroscedasticidad.
Problema de la SCP estándar: intervalos de anchura constante, no adaptativos.
Conformalized Quantile Regression (Romano et al., 2019)
Ajustar regresores cuantílicos \(\widehat{Q}_\alpha^{lo}(x)\) y \(\widehat{Q}_\alpha^{hi}(x)\)
Puntuación de conformidad: \[s(x,y) = \max\!\bigl(\widehat{Q}^{lo}(x)-y,\; y-\widehat{Q}^{hi}(x)\bigr)\]
Intervalo de predicción: \[\hat{C}_\alpha(x) = \bigl[\widehat{Q}^{lo}(x) - \hat{q},\; \widehat{Q}^{hi}(x) + \hat{q}\bigr]\]
Propiedades CQR
Validez: \(\{Y_{n+1} \in \hat{C}_\alpha(X_{n+1})\} = \{S_{n+1} \le q_{1-\alpha}(S)\}\) \(\Rightarrow\) garantía marginal se mantiene por el Lema del Cuantil.
| Método | Puntuación \(s(x,y)\) | Intervalo \(\hat{C}_\alpha(x)\) | Adaptativo |
|---|---|---|---|
| SCP estándar | \(\|\hat{\mu}(x)-y\|\) | \([\hat{\mu}(x) \pm \hat{q}]\) | No |
| SCP local | \(\|\hat{\mu}(x)-y\|/\hat{\sigma}(x)\) | \([\hat{\mu}(x) \pm \hat{q}\hat{\sigma}(x)]\) | Sí |
| CQR | \(\max(\hat{Q}^{lo}-y,\, y-\hat{Q}^{hi})\) | \([\hat{Q}^{lo}(x)-\hat{q},\, \hat{Q}^{hi}(x)+\hat{q}]\) | Sí |
Todos los métodos anteriores disfrutan de la misma garantía de validez marginal, gracias a la intercambiabilidad de los scores.
La elección de la puntuación determina la eficiencia (anchura promedio), no la validez.
Configuración: \(Y \in \{1,\ldots,C\}\), probabilidades estimadas \(\hat{p}_k(X)\) para \(k=1,\ldots,C\).
SCP estándar para clasificación
Puntuación: \[s(\hat{A}(X), Y) = 1 - \hat{p}_Y(X)\]
Conjunto de predicción: \[\hat{C}_\alpha(X_{n+1}) = \{y : s(\hat{A}(X_{n+1}),y) \le \hat{q}\}\]
i.e., incluir todas las clases con probabilidad estimada suficientemente alta.
Propiedad: eficiente en términos de tamaño promedio del conjunto (Sadinle et al., 2018)
Limitación: no distingue entre puntos “fáciles” y “difíciles” — sobrecobertura para fáciles, infracobertura para difíciles.
Ejemplo (\(\alpha=0.1\), 3 clases): Si \(\hat{q} = 0.65\), se incluye cualquier clase con \(\hat{p}_k(X_{n+1}) \ge 0.35\).
Puntuaciones acumulativas adaptativas (Angelopoulos et al., 2020):
Ordenar clases por probabilidad descendente: \(\hat{p}_{\sigma(1)}(x) \ge \ldots \ge \hat{p}_{\sigma(C)}(x)\)
Puntuación: \[s(x,y;\hat{p}) = \sum_{k=1}^{\sigma^{-1}(y)} \hat{p}_{\sigma(k)}(x) \quad\text{(suma acumulada hasta la clase verdadera)}\]
Conjunto de predicción para \(X_{n+1}\): \[\hat{C}_\alpha(X_{n+1}) = \bigl\{\sigma_{X_{n+1}}(1),\ldots, \sigma_{X_{n+1}}(r^*)\bigr\}\] donde \(r^* = \arg\max_r\left\{\sum_{k=1}^r \hat{p}_{\sigma(k)}(X_{n+1}) < \hat{q}\right\} + 1\)
Ventaja APS: los conjuntos son más pequeños para puntos fáciles (alta confianza) y más grandes para puntos difíciles (baja confianza) — mejor cobertura condicional empírica.
Desventaja de la SCP: \(\hat{\mu}\) menos preciso por la división de datos.
Pregunta natural
¿Podemos usar todos los datos para ajustar \(\hat{\mu}\) y mantener las garantías teóricas?
Supuesto adicional necesario:
Definición: Algoritmo simétrico
Para cualquier permutación \(\sigma\) de \(\{1,\ldots,m\}\): \[\mathcal{A}(Z_1,\ldots,Z_m) = \mathcal{A}(Z_{\sigma(1)},\ldots,Z_{\sigma(m)})\]
Intuición
SCP: ajusta \(\hat{\mu}\) en parte de los datos \(\Rightarrow\) scores intercambiables por construcción
Full CP: usa todos los datos para \(\hat{\mu}\), pero necesita simetría del algoritmo para garantizar intercambiabilidad de los scores.
Idea (versión oráculo): si pudiéramos observar \(Y_{n+1}\)…
En la práctica (no observamos \(Y_{n+1}\)):
Coste computacional
Requiere re-ajustar el modelo para cada valor \(y \in \mathcal{Y}\) — muy costoso para respuestas continuas. Soluciones prácticas: restringir a una rejilla de \(y\) (sin garantías) o usar métodos especializados para Ridge, Lasso, etc.
Teorema: Validez Full CP (Vovk et al., 2005)
Si \(Z_1,\ldots,Z_{n+1}\) son intercambiables y \(\mathcal{A}\) es simétrico, entonces:
\[\mathbb{P}\{Y_{n+1} \in C(X_{n+1})\} \ge 1-\alpha\]
| SCP | Full CP | |
|---|---|---|
| Garantía | ✓ | ✓ |
| Eficiencia \(\hat{\mu}\) | Reducida | Máxima |
| Coste computacional | Bajo | Muy alto |
| Requisito | Exch. | Exch.+Simétrico |
Compromiso: SCP es menos preciso pero computacionalmente barato. Full CP es preciso pero prohibitivo para modelos ML.
¿Existe un punto intermedio? \(\Rightarrow\) Validación cruzada conforme.
Jackknife (dejar-uno-fuera):
\[C(X_{n+1}) = \hat{\mu}(X_{n+1}) \pm \operatorname{Cuantil}_{1-\alpha}\bigl(|Y_i - \hat{\mu}_{-i}(X_i)|_{i=1,\ldots,n}\bigr)\]
donde \(\hat{\mu}_{-i}\) se ajusta sobre \(\{(X_j,Y_j)\}_{j\neq i}\).
Problema teórico
El jackknife no tiene garantías libres de distribución. Puede tener cobertura cero en el peor caso.
¿Por qué? Cada \(S_i = |Y_i - \hat{\mu}_{-i}(X_i)|\) se ajusta con datos distintos \(\Rightarrow\) los \(S_i\) no son intercambiables con \(S_{n+1} = |Y_{n+1} - \hat{\mu}(X_{n+1})|\).
Simulación (regresión lineal, \(d=50\), \(n=100\)):
Modificación clave: usar la predicción del modelo dejando-uno-fuera también para el punto de test.
Algoritmo Jackknife+
\[C(X_{n+1}) = \left[ -\operatorname{Cuantil}_{(1-\alpha)(1+1/n)}\bigl(-\hat{\mu}_{-i}(X_{n+1})+S_i\bigr),\; \operatorname{Cuantil}_{(1-\alpha)(1+1/n)}\bigl(\hat{\mu}_{-i}(X_{n+1})+S_i\bigr) \right]\]
donde \(S_i = |Y_i - \hat{\mu}_{-i}(X_i)|\).
Teorema: Cobertura Jackknife+ (Barber et al., 2021)
Si \(Z_1,\ldots,Z_{n+1}\) son intercambiables y \(\mathcal{A}\) es simétrico:
\[\mathbb{P}\{Y_{n+1} \in C(X_{n+1})\} \ge 1 - 2\alpha\]
(en contraste con el jackknife que puede tener cobertura cero)
CV+: generalización a validación cruzada de \(K\) folds con misma garantía \(\ge 1-2\alpha\), y \(\ge 1-2\alpha - 2/\sqrt{n}\) uniformemente en \(K\).
Cross-conformal prediction (Vovk 2015; Barber et al., 2021)
Para score residual: \(C_{\text{cross}} \subseteq C_{CV+}\)
Ventaja: evita la división datos, usa todos para ajuste. Coste: \(K\) ajustes del modelo en lugar de uno.
Lo que garantiza la SCP:
\[\mathbb{P}\{Y_{n+1} \in C(X_{n+1})\} \ge 1-\alpha\]
Lo que nos gustaría tener:
\[\mathbb{P}\{Y_{n+1} \in C(X_{n+1}) \mid X_{n+1} = x, \text{Cal}\} \ge 1-\alpha \quad \forall x\]
Resultado de imposibilidad
La validez condicional en \(X_{n+1}\) de forma informativa es imposible en general (Barber et al., 2021a; Lei & Wasserman, 2014).
Siempre puede haber subpoblaciones que sufran infra- o sobre-cobertura.
Qué sí es posible
Validez \(X\)-condicional débil (Barber et al., 2021a)
Para cualquier función test \(g: \mathcal{X} \to \{0,1\}\):
\[\left|\mathbb{P}\{Y_{n+1} \in C(X_{n+1})\} - (1-\alpha)\right| \le \varepsilon(n,\delta)\]
con alta probabilidad sobre Cal, donde \(\varepsilon(n,\delta) \to 0\) conforme \(n \to \infty\).
Métricas de cobertura condicional en la práctica:
Recomendación práctica: usar CQR o APS para mejorar la adaptatividad empírica, incluso sin garantías teóricas condicionales.
Escenarios donde la intercambiabilidad no se cumple:
Extensiones principales
Covariate shift (Tibshirani et al., 2019): Reponderar con \(w(x) = p_{\text{test}}(x)/p_{\text{train}}(x)\)
Conformal online adaptativo (ACI, Gibbs & Candès, 2021): Actualizar \(\alpha_t\) de forma adaptativa para datos en flujo
Partición temporal (Online Sequential SCP): Usar ventanas o splits temporales
Supuesto: \(P_{\text{train}}(Y|X) = P_{\text{test}}(Y|X)\) pero \(P_{\text{train}}(X) \neq P_{\text{test}}(X)\).
SCP con pesos de importancia (Tibshirani et al., 2019)
Ponderar los scores de calibración:
\[\hat{q} = \text{cuantil de} \sum_{i\in\text{Cal}} \frac{w(X_i)}{\sum_j w(X_j) + w(X_{n+1})} \delta_{S_i} + \frac{w(X_{n+1})}{\sum_j w(X_j) + w(X_{n+1})} \delta_{+\infty}\]
donde \(w(x) = p_{\text{test}}(x)/p_{\text{train}}(x)\) (razón de densidad).
Resultado: bajo covariate shift y conociendo los pesos \(w\), se recupera la garantía de cobertura marginal.
En la práctica: estimar \(w\) con clasificación o modelos de densidad.
Problema: datos en flujo con posible deriva de distribución.
ACI (Gibbs & Candès, 2021)
Actualizar el nivel \(\alpha_t\) de forma dinámica:
\[\alpha_{t+1} = \alpha_t + \gamma\bigl(\alpha - \mathbf{1}\{Y_t \notin C_t(X_t)\}\bigr)\]
donde \(\gamma > 0\) es la tasa de aprendizaje.
Aplicación: predicción de precios de electricidad, epidemiología en tiempo real, pronóstico meteorológico.
Ciencias biomédicas
Previsión energética
Visión por computadora y ML
Inferencia causal: efectos de tratamiento heterogéneos con predicción conforme (Romano et al., 2019; Lei & Candès, 2021)
Python:
MAPIE: SCP, CV+, CQR — scikit-learn compatiblecrepes: Full CP, cross-conformalnonconformist: implementaciones básicasconformal-prediction: tutoriales y notebooksR:
cfr: conformal regression (CRAN)conformalInference: paquete de Tibshirani et al.grf: random forests para CQRLibro de referencia
Theoretical Foundations of Conformal Prediction Angelopoulos, Barber, Bates (Cambridge UP, forthcoming)
Disponible: 75% en arXiv
Tutorial accesible
A Gentle Introduction to Conformal Prediction Angelopoulos & Bates (2023), arXiv:2107.07511
Diagrama de arquitectura: cadena de garantías de la predicción conforme
SCP: simple, eficiente, requiere división de datos
Full CP: usa todos los datos, computacionalmente costoso
Jackknife+/CV+: balance entre eficiencia y coste
Ventajas
Limitaciones
La intercambiabilidad reemplaza los supuestos paramétricos: El Lema del Cuantil garantiza cobertura marginal exacta sin conocer la distribución.
La elección de la puntuación determina la eficiencia: Cualquier función \(s(x,y)\) produce predicción conforme válida; CQR y LW mejoran la adaptatividad.
Hay un trilema SCP/Full CP/Jackknife+: Eficiencia estadística \(\leftrightarrow\) coste computacional \(\leftrightarrow\) garantía teórica.
Validez condicional es un objetivo difícil: Es teóricamente imposible en general, pero hay alternativas prácticas útiles (APS, CQR, PAC).
Las extensiones cubren desviaciones de i.i.d.: Covariate shift, datos temporales, entornos online — todos tienen adaptaciones conformes.
Vovk, V., Gammerman, A., & Shafer, G. (2005). Algorithmic Learning in a Random World. Springer.
Lei, J., G’Sell, M., Rinaldo, A., Tibshirani, R.J., & Wasserman, L. (2018). Distribution-free predictive inference for regression. Journal of the American Statistical Association, 113(523), 1094–1111.
Romano, Y., Patterson, E., & Candès, E.J. (2019). Conformalized quantile regression. NeurIPS 2019.
Angelopoulos, A., Bates, S., Jordan, M., & Malik, J. (2020). Uncertainty sets for image classifiers using conformal prediction. ICLR 2021.
Barber, R.F., Candès, E.J., Ramdas, A., & Tibshirani, R.J. (2021). Predictive inference with the jackknife+. Annals of Statistics, 49(1), 486–507.
Tibshirani, R.J., Barber, R.F., Candès, E.J., & Ramdas, A. (2019). Conformal prediction under covariate shift. NeurIPS 2019.
Gibbs, I., & Candès, E.J. (2021). Adaptive conformal inference under distribution shift. NeurIPS 2021.
Angelopoulos, A.N., & Bates, S. (2023). A gentle introduction to conformal prediction and distribution-free uncertainty quantification. arXiv:2107.07511.
Angelopoulos, A.N., Barber, R.F., & Bates, S. (forthcoming). Theoretical Foundations of Conformal Prediction. Cambridge University Press.
Lei, L., & Candès, E.J. (2021). Conformal inference of counterfactuals and individual treatment effects. Journal of the Royal Statistical Society: Series B, 83(5), 911–938.
Gracias
mluquefe@go.ugr.es

Basado en: CIRM Tutorial Part 1 — Rina Foygel Barber (University of Chicago), Diciembre 2024 CIRM Tutorial Part 2 — Aymeric Dieuleveut (École Polytechnique), Julio 2025

Predicción Conforme — MALF, UGR/LSHTM — Mayo 2026