En este capítulo estudiamos los métodos fundamentales para estimar parámetros poblacionales desconocidos basándonos en datos muestrales. Cubriremos desde los conceptos básicos de estimadores puntuales hasta la construcción de intervalos de confianza, pasando por dos de los métodos más importantes: el método de momentos y la estimación por máxima verosimilitud.
6.1 El Modelo Estadístico Paramétrico
Un modelo estadístico paramétrico especifica una familia de distribuciones, cada una de las cuales es indexada por parámetros desconocidos que queremos estimar.
NotaDefinición: Modelo Estadístico Paramétrico
Un modelo estadístico paramétrico es una colección de distribuciones de probabilidad:
\(f(x; \boldsymbol{\theta})\) es la función de densidad o de probabilidad
\(\boldsymbol{\theta} = (\theta_1, \ldots, \theta_p)\) es el vector de parámetros desconocidos
\(\Theta\) es el espacio de parámetros, el conjunto de todos los valores posibles que \(\boldsymbol{\theta}\) puede tomar
Ejemplo: Si modelamos una variable aleatoria como Normal, el modelo paramétrico es \(\{N(\mu, \sigma) : \mu \in \mathbb{R}, \sigma > 0\}\), donde los parámetros desconocidos son la media \(\mu\) y la desviación estándar \(\sigma\).
6.2 Estimadores Puntuales
Un estimador puntual es una función de la muestra que proporciona un único valor estimado para el parámetro de interés.
NotaDefinición: Estimador Puntual
Un estimador puntual de un parámetro \(\theta\) es una función de la muestra:
\[\hat{\theta} = g(X_1, X_2, \ldots, X_n)\]
Antes de observar la muestra, \(\hat{\theta}\) es una variable aleatoria que varía de muestra a muestra. Después de observar los datos muestrales \((x_1, \ldots, x_n)\), el estimador toma un valor concreto llamado estimación o valor estimado:
\[\hat{\theta} = g(x_1, x_2, \ldots, x_n)\]
Observación clave: Es importante distinguir entre:
El estimador (antes de ver los datos): variable aleatoria
El valor estimado (después de ver los datos): número concreto
6.3 Propiedades de los Estimadores
Un buen estimador debe satisfacer ciertas propiedades deseables. Las más importantes son la insesgadez, la eficiencia, la consistencia y el error cuadrático medio bajo.
6.3.1 Insesgadez
NotaDefinición: Insesgadez
Un estimador \(\hat{\theta}\) es insesgado para \(\theta\) si:
Un estimador es insesgado si y solo si su sesgo es cero.
AdvertenciaNota Importante: Insesgadez Asintótica
Un estimador es asintóticamente insesgado si:
\[\lim_{n \to \infty} E(\hat{\theta}) = \theta\]
Es decir, el sesgo desaparece cuando el tamaño de muestra crece indefinidamente.
6.3.2 Eficiencia
La eficiencia compara la varianza de estimadores insesgados. Cuanto menor sea la varianza, más eficiente es el estimador.
NotaDefinición: Eficiencia Relativa y Absoluta
Sean \(\hat{\theta}^{(1)}\) y \(\hat{\theta}^{(2)}\) dos estimadores insesgados de \(\theta\) (es decir, \(E(\hat{\theta}^{(1)}) = E(\hat{\theta}^{(2)}) = \theta\)).
Eficiencia Relativa:\(\hat{\theta}^{(1)}\) es más eficiente que \(\hat{\theta}^{(2)}\) si: \[\text{Var}(\hat{\theta}^{(1)}) \leq \text{Var}(\hat{\theta}^{(2)})\]
Eficiencia Absoluta (o Eficiencia de Mínima Varianza):\(\hat{\theta}^{(1)}\) es eficiente para \(\theta\) si tiene la menor varianza entre todos los estimadores insesgados de \(\theta\).
6.3.3 Consistencia
NotaDefinición: Consistencia
Un estimador \(\hat{\theta}\) es consistente para \(\theta\) si se cumplen ambas condiciones:
Esta descomposición muestra que el error total proviene de dos fuentes: la variabilidad del estimador y su sesgo.
Un estimador con menor ECM es preferible, incluso si es ligeramente sesgado. A veces, un estimador sesgado con baja varianza tiene ECM menor que un estimador insesgado con alta varianza.
6.4 Tabla Comparativa de Estimadores Comunes
La siguiente tabla resume propiedades de estimadores frecuentemente utilizados:
Nota: Para tamaños de muestra grandes, todos estos estimadores son aproximadamente insesgados y consistentes. La diferencia clave es que \(S^2\) (con divisor \(n-1\)) es insesgado incluso para muestras pequeñas.
6.5 Método de los Momentos (MoM)
El método de los momentos es uno de los procedimientos más antiguos y simples para estimar parámetros. Se basa en igualar los momentos poblacionales con los momentos muestrales.
NotaDefinición: Método de los Momentos
El método de los momentos estima los parámetros igualando los primeros \(k\) momentos poblacionales con los \(k\) momentos muestrales, donde \(k\) es el número de parámetros a estimar:
# Simular niveles de glucosa basal en ayunas (mg/dL) de 100 pacientes# Modelo: Normal con μ = 95 mg/dL (rango normoglucemia) y σ = 12 mg/dLset.seed(123)glucosa <-rnorm(100, mean =95, sd =12)# Momentos muestralesm1 <-mean(glucosa) # Primer momento muestralm2 <-mean(glucosa^2) # Segundo momento muestral# Estimadores por método de momentosmu_mom <- m1sigma2_mom <- m2 - m1^2cat("Estimadores por Método de Momentos (Glucosa basal, mg/dL):\n")
Estimadores por Método de Momentos (Glucosa basal, mg/dL):
Cuadro 6.2: Código R
Mostrar el código
cat("μ (MoM) =", round(mu_mom, 2), "mg/dL\n")
μ (MoM) = 96.1 mg/dL
Cuadro 6.3: Código R
Mostrar el código
cat("σ² (MoM) =", round(sigma2_mom, 2), "\n")
σ² (MoM) = 119
Cuadro 6.4: Código R
Mostrar el código
# Comparar con los parámetros verdaderoscat("\nParámetros verdaderos:\n")
Parámetros verdaderos:
Cuadro 6.5: Código R
Mostrar el código
cat("μ =", 95, "mg/dL\n")
μ = 95 mg/dL
Cuadro 6.6: Código R
Mostrar el código
cat("σ² =", 144, "\n")
σ² = 144
NotaInterpretación
El método de momentos recupera una estimación de la media próxima al verdadero μ = 95 mg/dL (μ̂ ≈ 96.1 mg/dL) y una estimación de la varianza algo inferior al verdadero σ² = 144 (σ̂² ≈ 119) — esta discrepancia refleja principalmente la variabilidad muestral del estimador (con \(n = 100\), el error estándar de \(S'^2\) es ≈ 20); el sesgo teórico (\(-\sigma^2/n \approx -1.44\)) contribuye solo marginalmente. Asintóticamente, ambas estimaciones convergen a los parámetros poblacionales, evidenciando que el procedimiento de igualar momentos muestrales con poblacionales proporciona estimadores consistentes. Esta propiedad es fundamental en estudios epidemiológicos sobre control glucémico, donde se busca estimar parámetros poblacionales de biomarcadores (glucemia, HbA1c, insulina) a partir de cohortes muestrales. El MoM es un método práctico y computacionalmente eficiente para caracterizar distribuciones de variables clínicas continuas.
6.5.3 Ejemplo 6.5.2: Distribución de Poisson
Para una distribución de Poisson \(\text{Poisson}(\lambda)\):
El método de máxima verosimilitud es el procedimiento más importante y ampliamente utilizado en estadística. Se basa en el principio de que la muestra observada es la “más probable” bajo el verdadero modelo.
6.6.1 La Función de Verosimilitud
NotaDefinición: Función de Verosimilitud
Para una muestra aleatoria simple \(\mathbf{X} = (X_1, X_2, \ldots, X_n)\) con valores observados \(\mathbf{x} = (x_1, x_2, \ldots, x_n)\), la función de verosimilitud es:
Si las observaciones son independientes (asunción estándar en muestreo aleatorio simple), la verosimilitud conjunta es el producto de las verosimilitudes individuales.
Interpretación: \(L(\theta; \mathbf{x})\) mide la probabilidad (o densidad de probabilidad) de observar la muestra \(\mathbf{x}\) para cada posible valor del parámetro \(\theta\).
Después de observar los datos, \(L(\theta)\) se considera como una función de \(\theta\) solamente (los datos son fijos). Diferentes valores de \(\theta\) producen diferentes valores de \(L(\theta)\).
6.6.2 El Estimador de Máxima Verosimilitud
NotaDefinición: Estimador de Máxima Verosimilitud (EMV)
El estimador de máxima verosimilitud (o MLE, del inglés) de \(\theta\) es el valor que maximiza la función de verosimilitud:
Nota: Para la media, el EMV coincide con el estimador MoM. Para la varianza, el EMV es \(S'^2\) (con divisor \(n\)), que es sesgado, mientras que el estimador por el método de momentos es también \(S'^2\) (ambos métodos coinciden en este caso, aunque son procedimientos distintos: MoM no es un EMV en general).
6.6.6 Propiedades del EMV
AdvertenciaPropiedades Importantes del EMV
Bajo condiciones de regularidad (que suelen cumplirse en la práctica):
Consistencia: El EMV es consistente, es decir, \(\hat{\theta}_{\text{MLE}} \xrightarrow{p} \theta_0\) cuando \(n \to \infty\).
Eficiencia Asintótica: El EMV es asintóticamente eficiente; es decir, entre todos los estimadores consistentes, el EMV tiene la menor varianza asintótica.
Distribución Asintótica: Para tamaños de muestra grandes, \[\hat{\theta}_{\text{MLE}} \approx N\left(\theta_0, \frac{1}{nI(\theta_0)}\right)\]
donde \(I(\theta)\) es la información de Fisher.
Invariancia: Si \(\hat{\theta}\) es el EMV de \(\theta\), entonces \(g(\hat{\theta})\) es el EMV de \(g(\theta)\) para cualquier función \(g\).
6.7 Optimización Numérica para MLE
En muchos casos, no es posible encontrar una solución analítica para el EMV. En estos casos, usamos algoritmos numéricos de optimización.
TipEjemplo: Optimización Numérica con optim() en R
Modelamos el tiempo (en días) hasta la primera hipoglucemia en 100 pacientes con diabetes tipo 1 mediante una distribución Gamma. Los parámetros shape y rate no tienen forma analítica cerrada en su EMV conjunto, por lo que recurrimos a optimización numérica.
Cuadro 6.7: Código R
Mostrar el código
# Tiempo (días) hasta primera hipoglucemia — 100 pacientes DM1# Modelo poblacional: Gamma(shape = 2, rate = 0.5)# E[T] = α/β = 4 días, Var[T] = α/β² = 8set.seed(42)tiempo_hipo <-rgamma(100, shape =2, rate =0.5)# Función de log-verosimilitud negativa# (minimizamos lo negativo para usar funciones de minimización)neg_log_lik <-function(params, datos) { shape <- params[1] rate <- params[2]# Evitar parámetros no válidosif (shape <=0|| rate <=0) return(Inf)# Log-verosimilitud para Gamma# f(t; α, β) = (β^α / Γ(α)) * t^(α-1) * exp(-βt)-sum(dgamma(datos, shape = shape, rate = rate, log =TRUE))}# Valores inicialesinicial <-c(shape =1, rate =1)# Optimización numérica de Nelder-Meadresultado <-optim(inicial, neg_log_lik, datos = tiempo_hipo,method ="Nelder-Mead")cat("Estimadores MLE numéricos — Tiempo hasta hipoglucemia (días):\n")
Estimadores MLE numéricos — Tiempo hasta hipoglucemia (días):
La optimización numérica recupera estimadores MLE de los parámetros de forma (α̂ ≈ 2.10) y tasa (β̂ ≈ 0.55) próximos a los parámetros poblacionales verdaderos (α = 2, β = 0.5), con tiempo medio estimado hasta hipoglucemia E[T] = α̂/β̂ ≈ 3.81 días (frente al valor poblacional 4 días). La pequeña discrepancia es consistente con la variabilidad muestral esperable para \(n = 100\). El algoritmo de Nelder-Mead converge adecuadamente sin necesidad de derivadas analíticas, lo cual es fundamental en aplicaciones biomédicas de análisis de supervivencia (tiempo hasta evento clínico) donde la verosimilitud carece de forma cerrada. La penalización con Inf para parámetros no admisibles y el uso de log-densidades garantizan estabilidad numérica. En diabetes tipo 1, conocer la distribución del tiempo hasta hipoglucemia permite diseñar pautas de monitorización glucémica y educación al paciente basadas en cuantiles poblacionales.
6.8 Intervalos de Confianza
Un intervalo de confianza proporciona un rango de valores plausibles para el parámetro desconocido, cuantificando la incertidumbre en nuestra estimación.
6.8.1 Definición de Intervalo de Confianza
NotaDefinición: Intervalo de Confianza
Un intervalo de confianza de nivel \(1-\alpha\) (o nivel de confianza \(100(1-\alpha)\%\)) para el parámetro \(\theta\) es un intervalo aleatorio \([L(\mathbf{X}), U(\mathbf{X})]\) tales que:
donde \(L(\mathbf{X})\) y \(U(\mathbf{X})\) son funciones de la muestra aleatoria, y \(1-\alpha\) se llama nivel de confianza o coeficiente de confianza.
Típicamente, \(1 - \alpha = 0.90\), \(0.95\), o \(0.99\).
6.8.2 Interpretación Frecuentista
AdvertenciaInterpretación Correcta de un IC
Antes de observar los datos: El intervalo \([L(\mathbf{X}), U(\mathbf{X})]\) es aleatorio. La afirmación \(P(L \leq \theta \leq U) = 1-\alpha\) significa que si repitiéramos el procedimiento de muestreo muchas veces, aproximadamente \(100(1-\alpha)\%\) de los intervalos resultantes contendrían el verdadero parámetro.
Después de observar los datos: El intervalo observado \([l, u]\) es fijo (con números reales). No es correcto decir “la probabilidad de que \(\theta\) esté en \([l, u]\) es \(1-\alpha\)” porque \(\theta\) es una constante desconocida, no una variable aleatoria. Simplemente decimos que el intervalo observado es una realización de un procedimiento que acierta \(100(1-\alpha)\%\) de las veces.
6.8.3 Intervalo de Confianza para la Media (Varianza Conocida)
Supuestos: - Población Normal: \(X \sim N(\mu, \sigma)\) - Varianza poblacional \(\sigma^2\)conocida - Muestra aleatoria simple de tamaño \(n\)
Distribución del estimador:\[\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \quad \Rightarrow \quad Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)\]
Construcción del IC: Para un nivel de confianza \(1-\alpha\), buscamos \(z_{1-\alpha/2}\) tal que \(P(-z_{1-\alpha/2} \leq Z \leq z_{1-\alpha/2}) = 1-\alpha\).
donde \(t_{1-\alpha/2, n-1}\) es el cuantil \((1-\alpha/2)\) de la distribución \(t\) con \(n-1\) grados de libertad.
TipEjemplo: IC para la Media en R
Cuadro 6.13: Código R
Mostrar el código
# Presión arterial sistólica (mmHg) en 25 pacientes adultos# Modelo poblacional: Normal con μ ≈ 130 mmHg y σ = 15 mmHgset.seed(100)pas <-rnorm(25, mean =130, sd =15)# IC con t-Student (varianza desconocida) — caso habitual en clínicaresultado <-t.test(pas, conf.level =0.95)cat("Intervalo de Confianza 95% para la PAS media (mmHg):\n")
Intervalo de Confianza 95% para la PAS media (mmHg):
# Estudio en 200 pacientes hipertensos en seguimiento clínico:# 132 alcanzan control adecuado de PAS (< 140/90 mmHg)n <-200x <-132p_hat <- x / n# Intervalo de confianza 95% para la proporciónconf_level <-0.95alpha <-1- conf_levelz_critico <-qnorm(1- alpha/2)error_estandar <-sqrt(p_hat * (1- p_hat) / n)IC <-c(p_hat - z_critico * error_estandar, p_hat + z_critico * error_estandar)cat("IC 95% para la proporción de hipertensos controlados:\n")
IC 95% para la proporción de hipertensos controlados:
cat("Interpretación: con 95% de confianza, entre el",round(IC[1]*100, 1), "% y el",round(IC[2]*100, 1), "%\n")
Interpretación: con 95% de confianza, entre el 59.4 % y el 72.6 %
Cuadro 6.22: Código R
Mostrar el código
cat("de los pacientes hipertensos poblacionales alcanzan control adecuado.\n")
de los pacientes hipertensos poblacionales alcanzan control adecuado.
6.9 Interpretación de Intervalos de Confianza
Interpretar correctamente un intervalo de confianza es fundamental. Consideremos un ejemplo:
Supongamos que construimos un IC 95% para la media y obtenemos \([48.3, 51.7]\).
AdvertenciaInterpretación CORRECTA
“Si repitiéramos el proceso de muestreo muchas veces (con muestras de igual tamaño de la misma población) y construyéramos un intervalo de confianza del 95% para cada muestra, aproximadamente el 95% de estos intervalos contendría el verdadero valor de la media poblacional.”
En otras palabras, el IC es sobre la fiabilidad del procedimiento, no sobre la probabilidad de que un intervalo específico contenga el parámetro.
AdvertenciaInterpretación INCORRECTA (Evitar)
“La verdadera media está en \([48.3, 51.7]\) con probabilidad 0.95”
Esto es incorrecto porque después de observar los datos, el intervalo es fijo y la verdadera media es constante (no aleatoria). El parámetro o está en el intervalo o no está.
6.10 Trabajando con Ejemplos Completos
TipEjemplo: Análisis Completo de Datos de HbA1c (Diabetes Tipo 2)
Cuadro 6.23: Código R
Mostrar el código
# Datos de HbA1c (%) de 20 pacientes con diabetes tipo 2# atendidos en la Facultad de Medicina, Universidad de Granadahba1c <-c(7.2, 8.1, 6.8, 9.3, 7.5, 8.8, 6.5, 10.2,7.9, 8.4, 7.1, 9.7, 7.3, 8.6, 6.9, 11.4,8.2, 7.0, 9.1, 7.6)# 1. ESTADÍSTICA DESCRIPTIVAmedia_muestral <-mean(hba1c)desv_est <-sd(hba1c) # Usa divisor n-1 (insesgado)n <-length(hba1c)cat("=== ESTADÍSTICA DESCRIPTIVA ===\n")
Interpretación: Con el 95% de confianza, el nivel medio de HbA1c poblacional en pacientes diabéticos está entre 7.58% y 8.78% (media muestral = 8.18%, \(s = 1.28\%\), \(n = 20\)). El IC no incluye el objetivo clínico de HbA1c < 7%, indicando que esta cohorte presenta un control glucémico subóptimo (por encima del objetivo terapéutico recomendado). El margen de error (~0.60%) refleja la variabilidad en control metabólico entre pacientes, lo que en práctica clínica orienta decisiones de intensificación terapéutica.
TipEjemplo: MLE para tiempos entre eventos cardiovasculares
Modelamos el tiempo (en años) entre eventos cardiovasculares mayores en una cohorte de 50 pacientes con cardiopatía isquémica como una distribución Exponencial con tasa λ. La media poblacional es \(1/\lambda\) años entre eventos.
Cuadro 6.37: Código R
Mostrar el código
# Tiempo (años) entre eventos cardiovasculares — 50 pacientes# Modelo poblacional: Exponencial con tasa λ = 0.5 eventos/año# (i.e., un evento cada 2 años en promedio)set.seed(999)tiempo_eventos <-rexp(50, rate =0.5)# Función de log-verosimilitud para Exponenciallog_verosimilitud <-function(lambda, datos) {if (lambda <=0) return(-Inf)sum(dexp(datos, rate = lambda, log =TRUE))}# Maximizar log-verosimilitud numéricamenteresultado_optim <-optimize(function(lambda) log_verosimilitud(lambda, tiempo_eventos),interval =c(0.01, 5),maximum =TRUE)lambda_mle <- resultado_optim$maximumcat("Estimador MLE de λ:", round(lambda_mle, 4), "eventos/año\n")
Documentación completa de ambas funciones en Sección B.3.
Cuadro 6.43: Código R
Mostrar el código
library(BioEstatR)# IC para la media de HbA1c — 94 pacientes diabéticos, Fac. Medicina UGRicm(m =mean(osteo$hba1c), s =sd(osteo$hba1c), n =nrow(osteo))
Intervalo de confianza bilateral para la media de una VA normal
----------------------------------------------------------------
Información muestral:
Tamaño muestral: n = 94
Media: m = 8.565
Desviación típica: s = 1.799
Error estándar de la media: sem = 0.186
Estimación:
95%-IC(µ): (8.2, 8.93)
Precisión obtenida: 0.368
Cuadro 6.44: Código R
Mostrar el código
# IC para la proporción de fumadores (41 de 94 pacientes)icp(x =sum(osteo$tabaco =="Sí"), n =nrow(osteo))
Intervalo de confianza para una proporción binomial
---------------------------------------------------
Información muestral:
Tamaño de muestra: n = 94
Estimación puntual clásica: p=x/n = 0.436, q=(1-p)=0.564
Casos observados: x = 41
# Método exacto (Clooper-Pearson):
Pseudo-estimación puntual: p' = 0.441, q'=(1-p')=0.559
95%-IC(π): (0.339, 0.542)
Semiamplitud: 0.102
# Método de Wilson (con cpc):
Pseudo-estimación puntual: p' = 0.439, q'=(1-p')=0.561
95%-IC(π): (0.335, 0.542)
Semiamplitud: 0.103
# Método de Wald (con cpc):
Estimación puntual (clásica): p=x/n = 0.436, q=(1-p)=0.564
95%-IC(π): (0.331, 0.542)
Precisión: 0.106
# Método de Wald ajustado (Agresti-Coull):
Estimación puntual: p=(x+2)/(n+4) = 0.439, q=(1-p)=0.561
95%-IC(π): (0.341, 0.537)
Precisión: 0.0982
icp() calcula cuatro métodos simultáneamente. Para muestras pequeñas se recomienda Clopper-Pearson (exacto); para muestras grandes los cuatro métodos convergen (las diferencias entre ellos disminuyen al aumentar \(n\)).
6.12 Cálculo del Tamaño Muestral: nm() y np()
Antes de iniciar un estudio clínico es esencial determinar el tamaño muestral necesario para alcanzar una precisión deseada en los intervalos de confianza. Las funciones nm() y np() del paquete BioEstatR (ver Sección B.4) calculan el tamaño muestral requerido para una media o una proporción, respectivamente, dada una semiamplitud objetivo \(d\) del IC.
6.12.1 Fórmulas del Tamaño Muestral
Para la media (con estimación piloto \(s\) de la desviación típica): \[n = \left(\frac{z_{1-\alpha/2}\, s}{d}\right)^2\]
Para la proporción (con estimación piloto \(\hat{p} = x/n\)): \[n = \left(\frac{z_{1-\alpha/2}}{d}\right)^2 \hat{p}\,(1-\hat{p})\]
donde \(d\) es la semiamplitud (precisión) deseada del IC y \(z_{1-\alpha/2}\) es el cuantil normal estándar. La dependencia cuadrática \(n \propto 1/d^2\) implica que reducir la semiamplitud a la mitad cuadruplica el tamaño muestral.
TipEjemplo: Tamaño muestral para HbA1c y prevalencia de tabaquismo
HbA1c: \(\bar{x} \approx 8.57\%\), \(s \approx 1.80\). ¿Cuántos pacientes hacen falta para reducir la semiamplitud del IC a \(d = 0.3\%\)?
Tabaquismo: 41/94 fumadores (\(\hat{p} \approx 0.436\)). ¿Cuántos pacientes para alcanzar precisión \(d = 0.05\) al 95% de confianza?
Cuadro 6.45: Código R
Mostrar el código
library(BioEstatR)# nm(): tamaño muestral para la media de HbA1c# d = 0.3% (semiamplitud deseada), datos piloto del estudio osteonm(d =0.3, n =nrow(osteo),m =mean(osteo$hba1c), s =sd(osteo$hba1c), alfa =0.05)
# Tamaño de muestra para la estimación de la media de una VA normal o su aproximación
# -----------------------------------------------------------------------------------
# Muestra piloto:
Tamaño muestral: n = 94
Media: m = 8.5649
Desviación típica: s = 1.7987
Error estandar de la media: sem = 0.1855
Precisión observada: d = 0.3684
# Estimación del tamaño muestral:
Precisión deseada: δ = 0.3000
Tamaño muestral necesario: n ≥ 142
Cuadro 6.46: Código R
Mostrar el código
# np(): tamaño muestral para la proporción de fumadores# d = 0.05 (semiamplitud deseada), conf = 0.95np(x =sum(osteo$tabaco =="Sí"), n =nrow(osteo),d =0.05, conf =0.95)
Tamaño de muestra para estimar una proporción binomial
-------------------------------------------------------
Información muestral
Tamaño de la muestra: n = 94
Casos: x = 41
Inferencia para la proporción basada en el método de Wald ajustado:
95%-IC(π): (0.3405, 0.5370)
precisión observada: d = 0.0982 (9.82%)
Tamaño muestral requerido para δ = 0.05 (5.00%), conf.= 95%
- Basado en la muestra actual (po = 0.5370): n ≥ 383
- Sin considerar la información previa: n ≥ 385
NotaInterpretación
El cálculo del tamaño muestral cuantifica el coste estadístico de incrementar la precisión. Para estimar la HbA1c media con una semiamplitud del IC \(\leq 0.3\%\) (frente a los \(\approx 0.37\%\) obtenidos con \(n = 94\)), se necesitarían n ≥ 142 pacientes diabéticos — un incremento del 51%. Análogamente, para estimar la prevalencia de tabaquismo con precisión \(\pm 5\%\) (IC 95%) se requerirían n ≥ 383 pacientes (usando la información de la muestra piloto), aproximadamente cuatro veces el tamaño del estudio piloto. En la fase de diseño de un protocolo clínico, estos cálculos orientan el balance entre precisión científica (estimaciones más estrechas guían mejor las decisiones terapéuticas) y viabilidad logística-financiera (reclutamiento, seguimiento, presupuesto). La dependencia cuadrática \(n \propto 1/d^2\) explica por qué ganar un factor 2 en precisión cuadruplica el coste muestral — un argumento decisivo al justificar el tamaño muestral ante comités éticos y agencias financiadoras.
6.13 Ejercicios
Concepto de Estimador: Define con tus palabras la diferencia entre un parámetro poblacional, un estimador y un valor estimado. ¿Por qué es importante considerar un estimador como una variable aleatoria?
Insesgadez vs. Eficiencia: Considera dos estimadores insesgados del mismo parámetro. ¿Cuál prefieres si uno tiene varianza dos veces mayor que el otro? Razona tu respuesta.
Error Cuadrático Medio: Explica por qué a veces puede ser preferible un estimador sesgado con baja varianza sobre uno insesgado con alta varianza. Proporciona un ejemplo numérico simple.
Método de Momentos: Para una muestra de una distribución Uniform\([0, \theta]\):
Encuentra el estimador por método de momentos de \(\theta\)
¿Es insesgado?
Máxima Verosimilitud: Para una muestra de \(n\) observaciones de una distribución Poisson\((\lambda)\):
Escribe la función de verosimilitud
Encuentra el EMV de \(\lambda\)
¿Coincide con el estimador MoM?
Intervalo de Confianza: Se observa una muestra de 36 datos con \(\bar{x} = 50\) y \(s = 12\). Construye un IC 95% para la media poblacional. ¿Cómo cambiaría el intervalo si usáramos un nivel de confianza del 99%?
Intervalo de Confianza para Proporción: En una encuesta de 500 personas, 325 responden afirmativamente a una pregunta. Construye un IC 95% para la proporción poblacional e interpreta el resultado.
Programación en R: Escribe un script en R que:
Genere una muestra de una distribución Normal\((\mu=100, \sigma=15)\) de tamaño \(n=50\)
Calcule estimadores puntuales para \(\mu\) y \(\sigma^2\)
Construya un IC 95% para \(\mu\)
Verifique si el verdadero valor de \(\mu\) cae dentro del intervalo
6.14 Respuestas a los Ejercicios
Ejercicio 1: Un parámetro es el valor verdadero desconocido de la población (θ). Un estimador es una función de los datos muestrales (T(X₁,…,Xₙ)) que genera diferentes valores según la muestra. Es una variable aleatoria porque depende de la muestra. Es importante reconocer esto para entender su distribución y propiedades.
Ejercicio 2: Prefieres el estimador con menor varianza porque tendrá una distribución más concentrada alrededor del parámetro. Si ambos son insesgados, el de menor varianza es más eficiente.
Ejercicio 3: Ejemplo: θ=0, Estimador A: insesgado, Var=100; Estimador B: sesgo=2, Var=10. ECM_A = 100; ECM_B = 4 + 10 = 14. B es mejor a pesar del sesgo.
Ejercicio 4: Para Uniform[0,θ], el método de momentos da θ̂ = 2X̄. No es insesgado (subestima).
Ejercicio 5: L(λ) = λⁿe^(-nλ)∏xᵢ!/∏xᵢ!. EMV: λ̂ = X̄. Sí coincide con MoM.