Sesión 8

Contenido

Sesión 8#

Modelos de regresión lineal#

Objetivos:

Revisitar modelos de predicción lineal desde una perspectiva de Montecarlo.

1. Predicción lineal#

Hasta ahora hemos trabajado con un modelo gaussiano para describir la altura en una población de adultos. Sin embargo, este modelo no incorpora aún un componente predictivo, es decir, una relación explícita entre la altura y otras variables que puedan explicarla.

Para ello introducimos el concepto de regresión, donde modelamos la media de la distribución (\(\mu_i\)) como una función de uno o más predictores, como el peso, la edad o el sexo de cada individuo.

En esta sección aprenderemos cómo incorporar predictores en el modelo de manera lineal.

Continuaremos con los datos de la población adulta, pero ahora analizaremos cómo la altura se relaciona con el peso.

import pandas as pd
import os
from scipy import stats
import matplotlib.pyplot as plt
import numpy as np

import warnings
warnings.filterwarnings('ignore')

ruta = os.path.join('..', '..', '..', 'docs', 'source', 'data')

ruta_data = os.path.join(ruta, 'Howell1.csv')
df = pd.read_csv(ruta_data, sep=';')
df.head()

	height	weight	age	male
0	151.765	47.825606	63.0	1
1	139.700	36.485807	63.0	0
2	136.525	31.864838	65.0	0
3	156.845	53.041914	41.0	1
4	145.415	41.276872	51.0	0

df.plot.scatter(x='weight',
                y='height',
                color='purple',
                alpha=0.5)

<Axes: xlabel='weight', ylabel='height'>

../_images/58741132a8d79927eb8e033a902b40a702c8d2a7c12d2b0d5fd89211078def3e.png

adultos = df[df.age >= 18].copy()
adultos.plot.scatter(x='weight',
                     y='height',
                     color='purple',
                     alpha=0.5)

<Axes: xlabel='weight', ylabel='height'>

../_images/9c4c3a05d3815e19f5563285eb7a0a5c2f6237424471cd5a56ab45a8708f0828.png

Peso → es la variable predictora (o variable independiente).

Altura → es la variable respuesta (o dependiente).

adultos.describe()

	height	weight	age	male
count	352.000000	352.000000	352.000000	352.000000
mean	154.597093	44.990486	41.138494	0.468750
std	7.742332	6.456708	15.967855	0.499733
min	136.525000	31.071052	18.000000	0.000000
25%	148.590000	40.256290	28.000000	0.000000
50%	154.305000	44.792210	39.000000	0.000000
75%	160.655000	49.292693	51.000000	1.000000
max	179.070000	62.992589	88.000000	1.000000

Del gráfico anterior observamos que existe una relación clara entre la altura y el peso. En otras palabras, conocer el peso de una persona nos puede ayudar a predecir su altura.

¿Cómo incorporamos el peso como predictor en el modelo de altura?#

En el modelo gaussiano original, la altura de todas las personas se describe con la misma media \(\mu\). Pero si creemos que la altura cambia con el peso, entonces esa media no debería ser fija.

Por eso, hacemos que \(\mu\) dependa linealmente del peso:

\[\mu_i = \alpha + \beta(w_i - \bar{w})\]

Finalmente, debemos asignar distribuciones previas a estos nuevos parámetros \((\alpha, \beta, \sigma)\) para reflejar nuestra incertidumbre antes de observar los datos.

(a) Modelo inicial#

Planteamiento del modelo sin predictores

\[\begin{split} \begin{align} \begin{array}{lcl} h_i & \sim & \text{Normal}(\mu, \sigma) \\ \mu & \sim & \text{Normal}(170, 20) \\ \sigma & \sim & \text{Uniform}(0, 50) \end{array} \end{align} \end{split}\]

En el modelo inicial, asumíamos que todas las personas tienen la misma media \(\mu\) para la altura:

\[ h_i \sim \text{Normal}(\mu, \sigma) \]

donde \(\mu\) es la altura promedio de toda la población.

El nuevo planteamiento

Sabemos que la altura depende del peso.

Entonces, ya no queremos que \(\mu\) sea constante, sino que cambie según el peso de cada persona \(w_i\).

Para eso, hacemos que \(\mu_i\) (la media para cada persona \(i\)) depende linealmente del peso:

\[ \mu_i = \alpha + \beta (w_i - \bar{w}) \]

Esa relación \(\alpha + \beta\) es la forma típica de un modelo lineal, una recta con:

intercepto \(\alpha\)
pendiente \(\beta\)
predictor \(w_i - \bar{w}\) (peso centrado)

(b) modelo con peso como predictor#

Sea \(w_i\) el peso de la persona \(i\) y \(\bar{w}\) el promedio de todos los pesos. Definimos:

\[\begin{split} \begin{align} \begin{array}{lcl} h_i & \sim & \text{Normal}(\mu_i, \sigma) \\ \mu_i & = & \alpha + \beta(w_i - \bar{w}) \\ \alpha & \sim & \text{Normal}(170, 20) \\ \beta & \sim & \text{Normal}(0, 10) \\ \sigma & \sim & \text{Uniform}(0, 50) \end{array} \end{align} \end{split}\]

En este nuevo modelo,

\(\alpha\) representa la altura promedio cuando el peso está en su media.
\(\beta\) indica cuánto cambia la altura en promedio por cada unidad de cambio en el peso.

¿Qué significa lo anterior?

\[ h_i \sim \text{Normal}(\mu_i, \sigma) \]

Como antes, representa la verosimilitud, es decir, la probabilidad de los datos observados. La diferencia es que ahora sustituimos la media general \(\mu\) por una media específica \(\mu_i\) para cada observación.

En otras palabras, la media ya no es constante, sino que depende del valor del predictor de cada individuo.

\[ \mu_i = \alpha + \beta (w_i - \bar{w}) \]

Aquí, \(\mu_i\) ya no es una parámetro aleatorio, sino una relación determinista entre los nuevos parámetros \(\alpha\) y \(\beta\) y la variable observada \(w_i\) (peso). Por eso usamos el símbolo «=» en lugar de «\(\sim\)».

El parámetro \(\beta\) representa el cambio esperado en la altura cuando el peso aumenta en una unidad (por ejemplo, 1 kg).

Demás expresiones

Corresponden a las previas de los parámetros. Como en los modelos anteriores, pueden ajustarse con ayuda de simulaciones predictivas previas, para asegurar que los valores iniciales sean razonables.

Curiosidades 💡

En el modelo bayesiano, el error no desaparece: está “dentro” de la distribución normal.

\(\sigma\) mide cuánta incertidumbre o ruido hay alrededor de la línea promedio.

Enfoque	Expresión	Cómo representa el error
Mínimos cuadrados	\(h_i = \alpha + \beta x_i + \varepsilon_i\)	\(\varepsilon_i\) es el error explícito
Bayesiano / Probabilístico	\(h_i \sim \text{Normal}(\mu_i, \sigma)\)	\(\sigma\) controla la variabilidad (error implícito)

(c) Simulación previa predictiva#

N = 100
w = adultos.weight.values
w_bar = np.mean(w)

print(w[:10])
print(w.shape)

[47.8256065 36.4858065 31.864838  53.0419145 41.276872  62.992589
 38.2434755 55.4799715 34.869885  54.487739 ]
(352,)

w_bar

np.float64(44.99048551988636)

# Muestrar las distribuciones previas

# alpha ~ Normal(170, 20)
alpha_samples = stats.norm.rvs(loc=170,
                               scale=20, 
                               size=N)

# beta ~ Normal(0, 10)
beta_samples = stats.norm.rvs(loc=0,
                               scale=10,
                               size=N)

# sigma ~ Uniform(0, 50)
sigma_samples = stats.uniform.rvs(loc=0,
                                   scale=50,
                                   size=N)

# print samples
print(alpha_samples.shape)
print(beta_samples.shape)
print(sigma_samples.shape)

(100,)
(100,)
(100,)

# Relación lineal de la altura promedio con el peso
mu = alpha_samples + beta_samples * (w - w_bar).reshape(-1, 1)

# print mu shape
print(mu.shape)

(352, 100)

mu

array([[158.35278242, 166.23374814, 139.6284435 , ..., 106.64882367,
        208.42926684, 151.24214104],
       [171.87054968, 189.40781461, 226.51105626, ..., 343.79094303,
        118.6832795 , 239.21567152],
       [177.37903984, 198.85124669, 261.91572096, ..., 440.42635666,
         82.11178965, 275.0648852 ],
       ...,
       [153.18223644, 157.36966771, 106.39584412, ...,  15.94196301,
        242.757107  , 117.59226563],
       [150.91801043, 153.48801158,  91.84300648, ..., -23.77934198,
        257.78955988, 102.85669927],
       [152.74290901, 156.61651055, 103.5721592 , ...,   8.23484413,
        245.67385158, 114.73312589]], shape=(352, 100))

# Muestrar la distribución de la altura

# height ~ Normal(mu, sigma)
height_samples = stats.norm.rvs(loc=mu,
                                scale=sigma_samples)

# Graficamos la altura promedio vs el peso
plt.plot(w, mu, alpha=0.3)
plt.axhline(y=0, color='r', linestyle='--')
plt.axhline(y=300, color='r', linestyle='--')
plt.xlabel('weight')
plt.ylabel('height')
plt.show()

../_images/8051fbbddba688bbd8d6cef3a0eb23055efd73e01f35a3b7dea8f5d2a6505dcf.png

Mejorando las distribuciones previas#

Con las distribuciones previas que usamos antes, la altura promedio podía tomar valores poco realistas, incluso para pesos dentro del rango normal. Podemos mejorar esto ajustando nuestras suposiciones iniciales.

Al observar el gráfico de dispersión, notamos que la relación entre altura y peso es positiva: las personas con mayor peso tienden a ser más altas.

Para reflejar este conocimiento previo, podemos asegurar que el parámetro \(\beta\) (la pendiente) sea siempre positivo usando una distribución Log-Normal en lugar de una normal.

Esta distribución solo toma valores mayores que cero:

\[ \beta \sim \text{LogNormal}(0, 1) \]

Esto significa que el logaritmo de \(\beta\) sigue una distribución normal con media 0 y desviación estándar 1.
En otras palabras, garantizamos que \(\beta > 0\), lo que representa de forma natural la relación positiva entre peso y altura.

# Densidad lognormal
beta = stats.lognorm(s=1)

x = np.linspace(-1, 10, 1001)
plt.plot(x, beta.pdf(x))

[<matplotlib.lines.Line2D at 0x7fab6f7ea5d0>]

../_images/6292810c3354c2efec9b9c6fb93700ebc3b7454b86e60a761c91c64694c17fb9.png

# Simulación previa predictiva ahora con lognormal para beta
N=100
w = adultos.weight.values
w_bar = np.mean(w)

#---
alpha_samples = stats.norm.rvs(loc=170, scale=20, size=N)
beta_samples = beta.rvs(size=N) ## solo esto cambió
sigma_samples = stats.uniform.rvs(loc=0, scale=50, size=N)

#---
mu = alpha_samples + beta_samples * (w - w_bar).reshape(-1, 1)

#---
height_samples = stats.norm.rvs(loc=mu,
                                scale=sigma_samples)

# Graficamos la altura promedio vs el peso
plt.plot(w, mu, alpha=0.3)
plt.axhline(y=0, color='r', linestyle='--')
plt.axhline(y=300, color='r', linestyle='--')
plt.xlabel('weight')
plt.ylabel('height')
plt.show()

../_images/8c514d3255378bc2318c8db472b2fd74447a89995a3c3530d0428cfa435c4202.png

Simulación previa con la nueva distribución#

¡Esto se ve mucho mejor!

Después de cambiar la distribución previa de \(\beta\) a una Log-Normal, todas las pendientes son ahora positivas, reflejando correctamente que la altura aumenta con el peso.

\[ \beta \sim \text{LogNormal}(0, 1) \]

En el gráfico, cada línea representa una posible relación entre peso y altura generada desde las distribuciones previas.

A diferencia del caso anterior, ahora todas las líneas tienen pendiente positiva y las alturas simuladas se concentran en un rango más razonable (entre 0 y 300 cm).

De forma que nuestro modelo completo es:

\[\begin{split} \begin{align} \begin{array}{lcl} h_i & \sim & \text{Normal}(\mu_i, \sigma) \\ \mu_i & = & \alpha + \beta(w_i - \bar{w}) \\ \alpha & \sim & \text{Normal}(170, 20) \\ \textcolor{red}{\beta} & \sim & \textcolor{red}{\text{Log-Normal}(0, 1)} \\ \sigma & \sim & \text{Uniform}(0, 50) \end{array} \end{align} \end{split}\]

(d) Estimemos la distribución posterior usando MCMC#

import arviz as az
import pymc as pm

w = adultos.weight.values
w_bar = np.mean(w)
h = adultos.height.values

w.shape

(352,)

w_bar

np.float64(44.99048551988636)

h.shape

(352,)

# Modelo

with pm.Model() as modelo_lineal_altura:
    # Sigma
    sigma = pm.Uniform('sigma',
                        lower=0,
                        upper=50)

    # Alpha
    alpha = pm.Normal('alpha',
                      mu=170,
                      sigma=20)
    # Beta
    beta = pm.Lognormal('beta',
                        mu=0,
                        sigma=1)

    # Mu
    mu = pm.Deterministic('mu',
                        alpha + beta * (w - w_bar))
    
    # altura
    altura = pm.Normal('altura',
                      mu=mu,
                      sigma=sigma,
                      observed=h) # alturas de mis datos
    
    # Muestreo
    idata = pm.sample()

Initializing NUTS using jitter+adapt_diag...

Sequential sampling (2 chains in 1 job)

NUTS: [sigma, alpha, beta]

Sampling 2 chains for 1_000 tune and 1_000 draw iterations (2_000 + 2_000 draws total) took 2 seconds.

We recommend running at least 4 chains for robust computation of convergence diagnostics

# Distribución posterior de los parámetros
az.plot_trace(idata, var_names=["alpha", "beta", "sigma"])
plt.tight_layout()

../_images/27a15466bab155fd5bce2441aaa8eb2abca4b37b14fbf9c500f92508119c7809.png

az.summary(idata, var_names=["alpha", "beta", "sigma"])

	mean	sd	eti89_lb	eti89_ub	ess_bulk	ess_tail	r_hat	mcse_mean	mcse_sd
alpha	154.606	0.27	150	160	3138	1732	1.00	0.0048	0.0035
beta	0.904	0.042	0.84	0.97	2882	1370	1.00	0.00079	0.00053
sigma	5.108	0.185	4.8	5.4	3152	1662	1.00	0.0033	0.0023

¿qué podríamos concluir?

La altura promedio es de 155 cm.

Por cada 1 kg adicional de peso, se espera que la altura aumente en alrededor de 0.9 cm.

La dispersión natural de las alturas es alrededor de 5.1 cm (simga)

Predicciones con la distribución posterior#

El objetivo principal de este modelo es realizar predicciones a partir de la distribución posterior de los parámetros.

Lo primero que podríamos hacer es tomar el promedio de las muestras de \(\alpha\) y \(\beta\) y graficar la relación promedio entre peso y altura:

post_samples = idata.posterior.to_dataframe()
post_samples

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
Cell In[32], line 1
----> 1 post_samples = idata.posterior.to_dataframe()
      2 post_samples

File ~/checkouts/readthedocs.org/user_builds/modelos-graficos-probabilisticos/envs/v2026/lib/python3.13/site-packages/xarray/core/common.py:306, in AttrAccessMixin.__getattr__(self, name)
    304         with suppress(KeyError):
    305             return source[name]
--> 306 raise AttributeError(
    307     f"{type(self).__name__!r} object has no attribute {name!r}"
    308 )

AttributeError: 'DataTree' object has no attribute 'to_dataframe'

Después de ajustar el modelo, tenemos muchas muestras posteriores de los parámetros \(\alpha\), \(\beta\) y \(\sigma\), obtenidas del muestreador NUTS.

Cada muestra representa una posible versión del modelo compatible con los datos observados.

Entonces, cuando calculamos lo siguiente, lo que hacemos es usar los valores promedio de los parámetros para construir una sola línea representativa, la “relación promedio” entre peso y altura.

En términos estadísticos:

\[ E[\mu_i] = E[\alpha] + E[\beta] (w_i - \bar{w}) \]

# relación promedio
alpha_avg = post_samples.alpha.mean()
beta_avg = post_samples.beta.mean()
mu_avg = alpha_avg + beta_avg * (w - w_bar)

print(alpha_avg)

154.59930547332058

print(beta_avg)

0.9029966249936888

print(mu_avg.shape)

(352,)

# -- scatter
plt.scatter(adultos.weight,
            adultos.height,
            alpha=0.5,
            label='Datos observados')
# -- línea
plt.plot(w, mu_avg, color='red', label='Relación promedio')
plt.xlabel('weight (kg)')
plt.ylabel('height (cm)')
plt.legend()

<matplotlib.legend.Legend at 0x118f8a900>

../_images/72bcb585b988db65e16a03fdfa97657fe6d8c9ad457e812ac9b666c09e51bb85.png

Línea roja:

Técnicamente es la línea que corresponde al promedio de \(\alpha\) y \(\Beta\) o, la línea que representa la relación promedio entre peso y altura según la posterior.

Franja de incertidumbre

Sin embargo, el modelo no solo nos da una única línea, sino también una incertidumbre sobre esa relación.

Podemos visualizarla muestreando varias combinaciones de \(\alpha\) y \(\beta\) desde la distribución posterior y graficando las líneas resultantes.

Estas líneas representan distintas relaciones posibles entre el peso y la altura, según la información contenida en los datos y la variabilidad del modelo.

posterior_samples = post_samples.sample(500)
post_mu = posterior_samples.alpha.values + posterior_samples.beta.values * (w - w_bar).reshape(-1, 1)

# -- scatter
plt.scatter(adultos.weight,
            adultos.height,
            alpha=0.5,
            label='Datos observados')

# -- líneas
plt.plot(w, post_mu, color='black', alpha=0.1)
plt.plot(w, mu_avg, color='red', label='Relación promedio')
plt.xlabel('weight (kg)')
plt.ylabel('height (cm)')
plt.legend()

<matplotlib.legend.Legend at 0x12894b9d0>

../_images/5827b622ebe498fc51ac113a7fc9ef61a663e5b37c1698e0ed9b38e3a29e4cad.png

Interpretación del gráfico#

En la figura se muestran los datos observados (puntos azules) junto con las predicciones del modelo:

Línea roja: la relación promedio representa la tendencia central del modelo, calculada usando el valor medio de los parámetros posteriores (\(E[\alpha]\) y \(E[\beta]\)).
Esta línea indica cuánto se espera que aumente la altura por cada kilogramo adicional de peso, según lo que el modelo aprednió de los datos.
Líneas negras semitransparentes: (la incertidumbre sobre esa relación) Cada línea negra es una versión posible de la relación entre peso y altura, obtenida muestreando distintas combinaciones de \(\alpha\) y \(\beta\) desde la distribución posterior.

Que estén tan juntas significa que los datos fueron suficientes para que elmodelo tenga mucha certeza sobre cómo se relaciona peso y altura.

Preguntas que nos podríamos hacer#

¿Cuánto es la altura promedio de una persona de 60 kg?

Usaremos las muestras de la posterior para responder esta pregunta.

post_samples.shape

(1408000, 4)

post_samples.head()

			alpha	sigma	beta	mu
chain	draw	mu_dim_0
0	0	0	154.583738	4.958618	0.869354	157.048461
		1	154.583738	4.958618	0.869354	147.190165
		2	154.583738	4.958618	0.869354	143.172909
		3	154.583738	4.958618	0.869354	161.583278
		4	154.583738	4.958618	0.869354	151.355295

# Promediar sobre mu_dim_0
posterior_reduced = post_samples.groupby(["chain", "draw"])[["alpha", "beta", "sigma"]].mean().reset_index()
posterior_reduced

	chain	draw	alpha	beta	sigma
0	0	0	154.583738	0.869354	4.958618
1	0	1	154.509082	0.950118	5.448984
2	0	2	154.333630	0.886316	5.002482
3	0	3	154.923305	0.926352	5.162237
4	0	4	154.335521	0.871423	5.107468
...	...	...	...	...	...
3995	3	995	154.430511	0.949348	5.148892
3996	3	996	154.792452	0.904513	4.931123
3997	3	997	154.507527	0.896187	5.305716
3998	3	998	154.455009	0.945847	4.801142
3999	3	999	154.602111	0.890257	5.389640

4000 rows × 5 columns

# calcular mu a 60 kg
mu_60 = posterior_reduced["alpha"].values + posterior_reduced["beta"].values * (60 - w_bar)
mu_60.shape

(4000,)

az.plot_kde(mu_60)

<Axes: >

../_images/0eb77a555763e4f71d2eb31b58475e2a88ee26ed649385683ff4916f852b0758.png

az.summary(mu_60, hdi_prob=0.89)

arviz - WARNING - Shape validation failed: input_shape: (1, 4000), minimum_shape: (chains=2, draws=4)

	mean	sd	hdi_5.5%	hdi_94.5%	mcse_mean	mcse_sd	ess_bulk	ess_tail	r_hat
x	168.153	0.679	167.074	169.219	0.009	0.011	5562.0	3337.0	NaN

Diferencia entre la posterior y la posterior predictiva#

Más a fondo... 💡

Posterior#

En la posterior, el modelo estima la distribución de los parámetros
\(\alpha, \beta, \sigma\) dados los datos observados:

\[ p(\alpha, \beta, \sigma \mid \text{datos}) \]

Con esas muestras podemos calcular la altura media esperada para cada persona:

\[ \mu_i^{(s)} = \alpha^{(s)} + \beta^{(s)} (w_i - \bar{w}) \]

Esto describe la incertidumbre sobre la recta promedio,
pero no incluye todavía la variabilidad natural de las alturas individuales.

Posterior predictiva#

La posterior predictiva usa esas mismas muestras de la posterior para simular cómo se verían nuevos datos reales si repitiéramos el experimento:

\[ h_i^{(s)} \sim \text{Normal}(\mu_i^{(s)}, \sigma^{(s)}) \]

Aquí el modelo agrega la variabilidad individual ((\(\sigma\))), lo que genera la banda naranja: una franja más ancha que refleja la dispersión esperada de las alturas reales.

Concepto	Qué muestra	Fórmula principal	Banda en el gráfico
Posterior	Incertidumbre sobre los parámetros y la recta promedio	\( \mu_i = \alpha + \beta (w_i - \bar{w}) \)	Banda angosta
Posterior predictiva	Incertidumbre sobre los datos reales (media + ruido)	\( h_i \sim \text{Normal}(\mu_i, \sigma) \)	Banda ancha (naranja)

2. Evaluación del modelo#

Hasta ahora, hemos utilizado los mismos datos que sirvieron para ajustar el modelo al momento de visualizar sus predicciones.

Si queremos comprobar qué tan bien generaliza a casos nuevos, necesitamos probarlo en datos que no haya visto antes.

¿cómo evaluar su desempeño predictivo en datos nuevos?

# Primero dividimos el conjunto de datos original en dos partes:
train = adultos.sample(frac=0.8)
test = adultos.drop(train.index)
adultos.shape, train.shape, test.shape

((352, 4), (282, 4), (70, 4))

#Definimos las variables  para el modelo
w=train.weight.values #datos de peso para train
w_bar = np.mean(w) #promedio de peso
h=train.height.values #datos de altura para train

#Construcción del modelo bayesiano

with pm.Model() as modelo_lineal_altura:

    w = pm.Data("w", w, dims="obs_id") # datos mutables; contenedor
    h = pm.Data("h", h, dims="obs_id")

    # Sigma
    sigma = pm.Uniform('sigma',
                        lower=0,
                        upper=50)
    # Alpha
    alpha = pm.Normal('alpha',
                      mu=170,
                      sigma=20)
    # Beta
    beta = pm.Lognormal('beta',
                        mu=0,
                        sigma=1)
    # Mu
    mu = pm.Deterministic('mu',
                        alpha + beta * (w - w_bar), dims="obs_id")
    # altura
    altura = pm.Normal('altura',
                      mu=mu,
                      sigma=sigma,
                      observed=h, dims="obs_id")

    # Muestreo
    idata = pm.sample()

Initializing NUTS using jitter+adapt_diag...
Multiprocess sampling (4 chains in 4 jobs)
NUTS: [sigma, alpha, beta]

Sampling 4 chains for 1_000 tune and 1_000 draw iterations (4_000 + 4_000 draws total) took 0 seconds.

Flujo de `pm.Data`, `pm.set_data` y `pm.sample_posterior_predictive`#

pm.Data — el contenedor mutable. Cuando defines dentro del modelo:

w = pm.Data("w", w_train)

# Con el modelo entrenado, predecimos sobre datos de prueba
w_test = test.weight.values

w_test[:5]

array([36.4858065, 62.992589 , 34.869885 , 38.498621 , 41.2485225])

pm.set_data — cambiar los datos sin reentrenar

Después de entrenar, podemos reemplazar los datos en ese contenedor:

pm.set_data({"w": w_test})

Esto actualiza internamente el valor de \(w\) dentro del modelo, pero no toca los parámetros del modelo (los mantiene fijos en los valores muestreados durante el entrenamiento).

Reusamos el modelo entrenado para hacer predicciones sobre nuevos pesos (w_test).

with modelo_lineal_altura:
    pm.set_data({"w": w_test})
    
    #muestreo posterior predictivo
    altura_pred = pm.sample_posterior_predictive(
        idata,
        var_names=["altura", "mu"],
        return_inferencedata=True,
        predictions=True,
        extend_inferencedata=True
    )

Sampling: [altura]

Argumento	Qué hace
`idata`	Usa las muestras del modelo entrenado (α, β, σ) para generar predicciones.
`var_names`	Especifica qué variables del modelo queremos predecir. En este caso, pedimos tanto las alturas simuladas (`altura`) como las medias esperadas (`mu`).
`return_inferencedata=True`	Devuelve los resultados en formato ArviZ InferenceData, lo que facilita el análisis posterior.
`predictions=True`	Guarda las predicciones bajo la sección `idata.predictions`, separadas del posterior original.
`extend_inferencedata=True`	Agrega estas nuevas predicciones al mismo objeto `idata` sin sobrescribir la información anterior.

altura_pred.predictions["altura"]

<xarray.DataArray 'altura' (chain: 4, draw: 1000, obs_id: 70)> Size: 2MB
array([[[146.45428021, 166.06292118, 147.66600412, ..., 167.18835387,
         156.55698952, 147.6875392 ],
        [150.44915349, 167.36397268, 148.50136927, ..., 162.69057405,
         154.29400845, 151.67019959],
        [158.41091877, 169.13529975, 138.1406341 , ..., 166.23747099,
         150.79214188, 154.65601816],
        ...,
        [141.35060538, 167.88498857, 152.2058923 , ..., 164.76349966,
         153.62120229, 149.36786152],
        [146.20812417, 167.99656144, 137.51741753, ..., 162.81587642,
         161.10054255, 148.37305663],
        [148.20092172, 177.76171418, 148.2308011 , ..., 149.23142568,
         151.74572344, 154.79441018]],

       [[146.49626996, 169.49877016, 150.68862953, ..., 163.65855587,
         151.32141755, 150.96095292],
        [143.86119907, 166.87181751, 137.34260741, ..., 163.97552949,
         145.3674969 , 153.07756625],
        [143.38468051, 167.85944767, 144.88693245, ..., 170.41043448,
         156.4960212 , 145.31272843],
...
        [152.92389684, 174.9715979 , 148.38663593, ..., 162.83434349,
         154.50627364, 147.23677544],
        [147.88212529, 174.99305421, 146.98422342, ..., 168.31832684,
         153.87377307, 152.03910468],
        [150.12746458, 164.13095387, 149.02549838, ..., 171.61278174,
         153.04439355, 154.13022924]],

       [[145.67959598, 178.08740254, 136.41496911, ..., 161.78310873,
         154.53128322, 149.56473199],
        [146.65394052, 174.9441745 , 142.41191868, ..., 169.79253708,
         149.74270234, 151.3599233 ],
        [148.01971152, 159.58320859, 147.79810121, ..., 163.13748902,
         159.08663581, 151.92596524],
        ...,
        [157.92705006, 172.9217674 , 146.72330491, ..., 166.60218089,
         150.32427738, 148.44398723],
        [146.63819805, 178.31295104, 136.99532745, ..., 167.66276252,
         154.37304497, 157.44171233],
        [150.66499347, 174.96192462, 153.92550311, ..., 165.50931933,
         148.76311447, 153.93574189]]], shape=(4, 1000, 70))
Coordinates:
  * chain    (chain) int64 32B 0 1 2 3
  * draw     (draw) int64 8kB 0 1 2 3 4 5 6 7 ... 993 994 995 996 997 998 999
  * obs_id   (obs_id) int64 560B 0 1 2 3 4 5 6 7 8 ... 62 63 64 65 66 67 68 69

xarray.DataArray

'altura'

chain: 4
draw: 1000
obs_id: 70

146.5 166.1 147.7 144.2 156.6 165.0 ... 157.0 153.0 165.5 148.8 153.9

array([[[146.45428021, 166.06292118, 147.66600412, ..., 167.18835387,
         156.55698952, 147.6875392 ],
        [150.44915349, 167.36397268, 148.50136927, ..., 162.69057405,
         154.29400845, 151.67019959],
        [158.41091877, 169.13529975, 138.1406341 , ..., 166.23747099,
         150.79214188, 154.65601816],
        ...,
        [141.35060538, 167.88498857, 152.2058923 , ..., 164.76349966,
         153.62120229, 149.36786152],
        [146.20812417, 167.99656144, 137.51741753, ..., 162.81587642,
         161.10054255, 148.37305663],
        [148.20092172, 177.76171418, 148.2308011 , ..., 149.23142568,
         151.74572344, 154.79441018]],

       [[146.49626996, 169.49877016, 150.68862953, ..., 163.65855587,
         151.32141755, 150.96095292],
        [143.86119907, 166.87181751, 137.34260741, ..., 163.97552949,
         145.3674969 , 153.07756625],
        [143.38468051, 167.85944767, 144.88693245, ..., 170.41043448,
         156.4960212 , 145.31272843],
...
        [152.92389684, 174.9715979 , 148.38663593, ..., 162.83434349,
         154.50627364, 147.23677544],
        [147.88212529, 174.99305421, 146.98422342, ..., 168.31832684,
         153.87377307, 152.03910468],
        [150.12746458, 164.13095387, 149.02549838, ..., 171.61278174,
         153.04439355, 154.13022924]],

       [[145.67959598, 178.08740254, 136.41496911, ..., 161.78310873,
         154.53128322, 149.56473199],
        [146.65394052, 174.9441745 , 142.41191868, ..., 169.79253708,
         149.74270234, 151.3599233 ],
        [148.01971152, 159.58320859, 147.79810121, ..., 163.13748902,
         159.08663581, 151.92596524],
        ...,
        [157.92705006, 172.9217674 , 146.72330491, ..., 166.60218089,
         150.32427738, 148.44398723],
        [146.63819805, 178.31295104, 136.99532745, ..., 167.66276252,
         154.37304497, 157.44171233],
        [150.66499347, 174.96192462, 153.92550311, ..., 165.50931933,
         148.76311447, 153.93574189]]], shape=(4, 1000, 70))

Coordinates: (3)

chain
(chain)
int64
0 1 2 3
```
array([0, 1, 2, 3])
```

draw

(draw)

int64

0 1 2 3 4 5 ... 995 996 997 998 999

array([  0,   1,   2, ..., 997, 998, 999], shape=(1000,))

obs_id

(obs_id)

int64

0 1 2 3 4 5 6 ... 64 65 66 67 68 69

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53,
       54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69])

altura_pred.predictions["mu"]

<xarray.DataArray 'mu' (chain: 4, draw: 1000, obs_id: 70)> Size: 2MB
array([[[146.01457823, 171.32416802, 144.47164067, ..., 162.39137162,
         152.56529559, 152.05098307],
        [147.18765494, 170.62939812, 145.7585861 , ..., 162.35584171,
         153.25492965, 152.77857337],
        [147.75868017, 169.86604688, 146.41095835, ..., 162.06344686,
         153.48058685, 153.03134624],
        ...,
        [146.46189504, 171.77849505, 144.91853012, ..., 162.84322446,
         153.01442681, 152.49997183],
        [146.24544225, 171.72850383, 144.69192941, ..., 162.7344821 ,
         152.84105819, 152.32322057],
        [146.49830224, 170.94346125, 145.0080626 , ..., 162.31575807,
         152.82528457, 152.32853803]],

       [[147.67521898, 171.21315815, 146.24028579, ..., 162.90565021,
         153.76739147, 153.28908041],
        [145.96645465, 171.11627156, 144.43325726, ..., 162.23986559,
         152.47581903, 151.96475323],
        [146.28451854, 171.0678961 , 144.77366023, ..., 162.32082167,
         152.69903979, 152.19542036],
...
        [147.25783178, 170.38625447, 145.84786376, ..., 162.22328176,
         153.24401177, 152.77402243],
        [145.8648506 , 172.13145953, 144.2635707 , ..., 162.86089167,
         152.66326703, 152.12950706],
        [147.03865829, 169.97049026, 145.64067495, ..., 161.87690251,
         152.97395598, 152.50796153]],

       [[146.46130371, 170.78665061, 144.97836813, ..., 162.20123406,
         152.75727585, 152.26296399],
        [147.41338655, 170.86289484, 145.98384433, ..., 162.5865978 ,
         153.48267105, 153.00615698],
        [146.74569021, 171.19484417, 145.25520702, ..., 162.56573101,
         153.07370653, 152.5768788 ],
        ...,
        [148.00593783, 170.558293  , 146.63108837, ..., 162.59863823,
         153.84301799, 153.38473484],
        [145.60206005, 171.74146052, 144.0085351 , ..., 162.51578977,
         152.36755193, 151.83637695],
        [146.44631909, 172.15307252, 144.87916942, ..., 163.08010072,
         153.09983174, 152.57744852]]], shape=(4, 1000, 70))
Coordinates:
  * chain    (chain) int64 32B 0 1 2 3
  * draw     (draw) int64 8kB 0 1 2 3 4 5 6 7 ... 993 994 995 996 997 998 999
  * obs_id   (obs_id) int64 560B 0 1 2 3 4 5 6 7 8 ... 62 63 64 65 66 67 68 69

xarray.DataArray

'mu'

chain: 4
draw: 1000
obs_id: 70

146.0 171.3 144.5 147.9 150.6 167.1 ... 156.4 151.7 163.1 153.1 152.6

array([[[146.01457823, 171.32416802, 144.47164067, ..., 162.39137162,
         152.56529559, 152.05098307],
        [147.18765494, 170.62939812, 145.7585861 , ..., 162.35584171,
         153.25492965, 152.77857337],
        [147.75868017, 169.86604688, 146.41095835, ..., 162.06344686,
         153.48058685, 153.03134624],
        ...,
        [146.46189504, 171.77849505, 144.91853012, ..., 162.84322446,
         153.01442681, 152.49997183],
        [146.24544225, 171.72850383, 144.69192941, ..., 162.7344821 ,
         152.84105819, 152.32322057],
        [146.49830224, 170.94346125, 145.0080626 , ..., 162.31575807,
         152.82528457, 152.32853803]],

       [[147.67521898, 171.21315815, 146.24028579, ..., 162.90565021,
         153.76739147, 153.28908041],
        [145.96645465, 171.11627156, 144.43325726, ..., 162.23986559,
         152.47581903, 151.96475323],
        [146.28451854, 171.0678961 , 144.77366023, ..., 162.32082167,
         152.69903979, 152.19542036],
...
        [147.25783178, 170.38625447, 145.84786376, ..., 162.22328176,
         153.24401177, 152.77402243],
        [145.8648506 , 172.13145953, 144.2635707 , ..., 162.86089167,
         152.66326703, 152.12950706],
        [147.03865829, 169.97049026, 145.64067495, ..., 161.87690251,
         152.97395598, 152.50796153]],

       [[146.46130371, 170.78665061, 144.97836813, ..., 162.20123406,
         152.75727585, 152.26296399],
        [147.41338655, 170.86289484, 145.98384433, ..., 162.5865978 ,
         153.48267105, 153.00615698],
        [146.74569021, 171.19484417, 145.25520702, ..., 162.56573101,
         153.07370653, 152.5768788 ],
        ...,
        [148.00593783, 170.558293  , 146.63108837, ..., 162.59863823,
         153.84301799, 153.38473484],
        [145.60206005, 171.74146052, 144.0085351 , ..., 162.51578977,
         152.36755193, 151.83637695],
        [146.44631909, 172.15307252, 144.87916942, ..., 163.08010072,
         153.09983174, 152.57744852]]], shape=(4, 1000, 70))

Coordinates: (3)

chain
(chain)
int64
0 1 2 3
```
array([0, 1, 2, 3])
```

draw

(draw)

int64

0 1 2 3 4 5 ... 995 996 997 998 999

array([  0,   1,   2, ..., 997, 998, 999], shape=(1000,))

obs_id

(obs_id)

int64

0 1 2 3 4 5 6 ... 64 65 66 67 68 69

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53,
       54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69])

altura_pred es un objeto de tipo InferenceData con secciones como:

predictive["altura"] → las alturas simuladas (ruido incluido). Forma: (chain, draw, len(w_test))
predictive["mu"] → las medias condicionales (sin ruido \(\sigma\)).

Cada valor dentro de predictive["altura"] es una simulación de altura predicha para un individuo del conjunto de prueba, bajo un conjunto de parámetros posterior.

# Eje X 
x = test.weight.values
order = x.argsort()

# HDI de la posterior predictiva (incertidumbre total: params + sigma)
az.plot_hdi(x, altura_pred.predictions["altura"]) #antes usábamos idata.posterior_predictive (con 352 puntos con todos los datos conocidos)

# HDI de la media condicional (incertidumbre de parámetros, sin sigma)
az.plot_hdi(x, altura_pred.predictions["mu"], color="black") #aquí también lo mismo que en el comentario anterior

# Línea de relación promedio (media posterior de mu)
mean_mu = altura_pred.predictions["mu"].mean(dim=["chain","draw"])  
plt.plot(x[order], mean_mu.isel(obs_id=order), color="red", label="Relación promedio")

# Datos observados
plt.scatter(test.weight, test.height, alpha=0.5, label="Datos observados")

plt.xlabel("weight (kg)")
plt.ylabel("height (cm)")
plt.legend()
plt.show()

../_images/8b31b380412bf2eb9781e2d0db7b6d985ea82a7753b11478bec31e242c3a5656.png

Métricas de evaluación#

from sklearn.metrics import r2_score, mean_squared_error

altura_real = test['height']
altura_pred = altura_pred.predictions["mu"].mean(("chain", "draw"))

r2_score(altura_real, altura_pred)

0.4653108582313362

mean_squared_error(altura_real, altura_pred)

34.21921516494074

# Predicción media por observación
y_pred_mean = idata.predictions["mu"].mean(("chain", "draw")).values

# Intervalo de credibilidad del 90%
hdi_90 = az.hdi(idata.predictions["altura"], hdi_prob=0.9)
lower = hdi_90["altura"].sel(hdi="lower").values
upper = hdi_90["altura"].sel(hdi="higher").values

# Combinar todo en un df para inspeccionar
pred_df = pd.DataFrame({
    "peso_test": test["weight"].values,
    "altura_real": test["height"].values,
    "altura_pred_media": y_pred_mean,
    "pred_lo_90": lower,
    "pred_hi_90": upper
})

# si la observación cae dentro del intervalo
pred_df["en_intervalo"] = (
    (pred_df["altura_real"] >= pred_df["pred_lo_90"]) &
    (pred_df["altura_real"] <= pred_df["pred_hi_90"])
)

pred_df.head(10)

	peso_test	altura_real	altura_pred_media	pred_lo_90	pred_hi_90	en_intervalo
0	36.485807	139.700	146.786528	138.857740	155.194015	True
1	62.992589	163.830	171.146526	163.238678	179.519387	True
2	34.869885	147.955	145.301480	137.194543	153.403768	True
3	38.498621	146.050	148.636325	140.332520	156.570079	True
4	41.248522	154.305	151.163512	143.651400	159.739515	True
5	58.598416	165.735	167.108238	158.703516	175.077310	True
6	50.900000	158.800	160.033316	151.413366	167.444930	True
7	45.642695	145.415	155.201800	146.714473	162.752182	False
8	37.931631	149.860	148.115256	139.888228	155.850266	True
9	36.287360	136.525	146.604154	138.878277	154.930457	False

Creamos una tabla que permite inspeccionar, observación por observación, qué tan bien las alturas reales coinciden con los intervalos de incertidumbre del modelo.

pred_df.en_intervalo.value_counts()

en_intervalo
True     61
False     9
Name: count, dtype: int64

Comentarios finales#

La función lineal utilizada en este modelo no es la única posible. Así como vimos en la clase de ajuste de polinomios, podríamos emplear funciones no lineales (cuadráticas, cúbicas, exponenciales, etc.) para capturar relaciones más complejas entre las variables. Aquí usamos una forma lineal por simplicidad y claridad conceptual.

Todas las consideraciones de ingeniería de características que aplican en modelos de regresión clásica (escalamiento, centrado, transformación, creación de variables, etc.) también aplican en modelos bayesianos. Estas decisiones influyen directamente en la estabilidad numérica, la interpretación de los parámetros y la velocidad de muestreo.

La parte más ingenieril/artesanal del modelado bayesiano radica en definir adecuadamente las distribuciones previas y probar distintas formulaciones del modelo. Es decir, el trabajo no solo consiste en ajustar el modelo, sino en reflexionar sobre qué suposiciones probabilísticas representan mejor el fenómeno que queremos describir.

Extra: Modelo lineal multivariable#

Incorporamos ahora tres predictores:

el peso (\(w_i\)),
la edad (\(a_i\)),
y el sexo (\(s_i\)), codificado como \(s_i = 0\) para mujeres y \(s_i = 1\) para hombres.

El modelo jerárquico queda definido así:

\[\begin{split} \begin{align} h_i &\sim \text{Normal}(\mu_i, \sigma) \\ \mu_i &= \alpha + \beta_w (w_i - \bar{w}) + \beta_a (a_i - \bar{a}) + \beta_s s_i \\ \alpha &\sim \text{Normal}(170, 20) \\ \beta_w &\sim \text{Normal}(0, 1) \\ \beta_a &\sim \text{Normal}(0, 1) \\ \beta_s &\sim \text{Normal}(0, 10) \\ \sigma &\sim \text{Uniform}(0, 50) \end{align} \end{split}\]

Interpretación de los parámetros#

\(\alpha\): altura promedio cuando el peso y la edad están en su media y el sexo es femenino (\(s_i=0\)).
\(\beta_w\): cambio promedio en altura por cada unidad adicional de peso, manteniendo edad y sexo constantes.
\(\beta_a\): cambio promedio en altura por cada unidad adicional de edad, manteniendo peso y sexo constantes.
\(\beta_s\): diferencia promedio en altura entre hombres y mujeres, controlando por peso y edad.
\(\sigma\): desviación estándar del error, representa la variabilidad no explicada por el modelo.

Sesión 8

Contenido

Sesión 8#

Modelos de regresión lineal#

1. Predicción lineal#

¿Cómo incorporamos el peso como predictor en el modelo de altura?#

(a) Modelo inicial#

(b) modelo con peso como predictor#

(c) Simulación previa predictiva#

Mejorando las distribuciones previas#

Simulación previa con la nueva distribución#

(d) Estimemos la distribución posterior usando MCMC#

Predicciones con la distribución posterior#

Interpretación del gráfico#

Preguntas que nos podríamos hacer#

Diferencia entre la posterior y la posterior predictiva#

Posterior#

Posterior predictiva#

(e) ¿y, \(\sigma\)?#

2. Evaluación del modelo#

Flujo de pm.Data, pm.set_data y pm.sample_posterior_predictive#

Métricas de evaluación#

Comentarios finales#

Extra: Modelo lineal multivariable#

Interpretación de los parámetros#

Flujo de `pm.Data`, `pm.set_data` y `pm.sample_posterior_predictive`#