Introducción
Un contraste de hipótesis (también llamado prueba de hipótesis) es un procedimiento estadístico para tomar una decisión entre dos afirmaciones contrapuestas acerca de un parámetro desconocido de la población. Utilizamos información de una muestra aleatoria para determinar si la evidencia respalda rechazar o no una afirmación inicial (hipótesis nula).
Ejemplo motivador: Un productor de monedas afirma que sus monedas son justas (probabilidad de cara = 0.5). ¿Cómo comprobamos esta afirmación? Si lanzamos la moneda 100 veces y obtenemos 95 caras, esto sugiere que la moneda no es justa. Pero ¿y si obtenemos 52 caras? El contraste de hipótesis nos proporciona un procedimiento riguroso para tomar esta decisión considerando la aleatoriedad de los datos.
Hipótesis Nula y Alternativa
En un contraste de hipótesis distinguimos dos hipótesis complementarias:
Hipótesis Nula (\(H_0\)): Es la afirmación que asumimos como cierta por defecto. Representa el status quo o la ausencia de efecto. Siempre contiene una igualdad.
Hipótesis Alternativa (\(H_1\)): Es la afirmación que queremos demostrar o investigar. Representa la desviación del valor hipotético en \(H_0\).
Dos hipótesis son complementarias y mutuamente excluyentes: si una es cierta, la otra es falsa. Capturan todos los valores posibles del parámetro.
Tipos de Hipótesis
Hipótesis Simple vs. Compuesta: - Una hipótesis es simple si especifica un único valor del parámetro (p.ej., \(H_0: \mu = 100\)) - Una hipótesis es compuesta si especifica múltiples valores (p.ej., \(H_1: \mu > 100\))
Contrastes Bilaterales vs. Unilaterales:
| Bilateral |
\(H_0: \theta = \theta_0\) |
\(H_1: \theta \neq \theta_0\) |
Investigamos desviaciones en ambas direcciones |
| Unilateral derecho |
\(H_0: \theta \leq \theta_0\) |
\(H_1: \theta > \theta_0\) |
Investigamos si el parámetro es mayor |
| Unilateral izquierdo |
\(H_0: \theta \geq \theta_0\) |
\(H_1: \theta < \theta_0\) |
Investigamos si el parámetro es menor |
Ejemplos
- Prueba de moneda justa: \(H_0: \pi = 0.5\) vs. \(H_1: \pi \neq 0.5\) (bilateral)
- Control de calidad: \(H_0: \mu \leq 1000\) vs. \(H_1: \mu > 1000\) (unilateral derecho)
- Seguridad de medicamento: \(H_0: \pi \geq 0.05\) vs. \(H_1: \pi < 0.05\) (unilateral izquierdo, donde \(\pi\) es tasa de efectos adversos)
Errores Tipo I y Tipo II
Cuando tomamos una decisión basada en datos muestrales, podemos cometer errores. La verdad sobre \(H_0\) es desconocida, pero existen dos posibilidades:
Error Tipo I (Falso Positivo): Rechazar \(H_0\) cuando en realidad es verdadera. - Probabilidad: \(P(\text{Rechazar } H_0 | H_0 \text{ es verdadera}) = \alpha\) - Nivel de significación
Error Tipo II (Falso Negativo): No rechazar \(H_0\) cuando en realidad es falsa. - Probabilidad: \(P(\text{No rechazar } H_0 | H_1 \text{ es verdadera}) = \beta\)
Potencia de la prueba: Probabilidad de rechazar \(H_0\) cuando es falsa. - Potencia = \(1 - \beta\) - Representa nuestra capacidad de detectar un efecto verdadero
Tabla de Decisión
| Rechazamos \(H_0\) |
Error Tipo I (probabilidad \(\alpha\)) |
✓ Decisión Correcta (probabilidad \(1-\beta\)) |
| No Rechazamos \(H_0\) |
✓ Decisión Correcta (probabilidad \(1-\alpha\)) |
Error Tipo II (probabilidad \(\beta\)) |
Analogía: El Pronóstico Médico
La estructura de un contraste de hipótesis puede entenderse con una analogía clínica sobre el pronóstico de un paciente:
- \(H_0\): El paciente va a morir (pronóstico fatal asumido como hipótesis nula)
- \(H_1\): El paciente va a vivir
- Error Tipo I: Le dices que vive, pero muere (rechazas \(H_0\) siendo cierta)
- Error Tipo II: Le dices que muere, pero vive (no rechazas \(H_0\) siendo falsa)
Esta analogía ilustra cómo las consecuencias de los errores definen la gravedad del contraste. En este escenario, el Error Tipo I (falsa esperanza) tiene consecuencias emocionales y logísticas muy distintas al Error Tipo II (falsa alarma).
Relación entre \(\alpha\) y \(\beta\)
Observación importante: Para una muestra de tamaño \(n\) fijo, existe una relación inversa entre \(\alpha\) y \(\beta\):
- Si bajamos \(\alpha\) (menos riesgo de rechazar \(H_0\) falsamente), entonces \(\beta\) aumenta (mayor riesgo de no rechazar \(H_0\) falsamente)
- Si bajamos \(\beta\) (mejor capacidad de detectar un efecto), entonces \(\alpha\) aumenta
- La única forma de reducir ambos simultáneamente es aumentar el tamaño de la muestra \(n\)
Estadístico de Prueba y Región Crítica
Para ejecutar un contraste de hipótesis necesitamos tres ingredientes:
1. Estadístico de Prueba (\(T_n\)): Una función de los datos muestrales cuya distribución es conocida bajo \(H_0\). Se calcula de la muestra y resume la evidencia contra \(H_0\).
2. Distribución bajo \(H_0\): La distribución de probabilidad del estadístico de prueba asumiendo que \(H_0\) es verdadera.
3. Región de Rechazo (o Región Crítica): El conjunto de valores del estadístico de prueba para los cuales rechazamos \(H_0\). Se define antes de recopilar datos.
Valor Crítico: El punto que separa la región de rechazo de la región de no rechazo.
Procedimiento de Decisión
- Calcular el valor observado del estadístico de prueba: \(t_{obs} = T(x_1, \ldots, x_n)\)
- Comparar \(t_{obs}\) con la región crítica
- Si \(t_{obs}\) está en la región crítica \(\Rightarrow\) Rechazamos \(H_0\)
- Si \(t_{obs}\) NO está en la región crítica \(\Rightarrow\) No rechazamos \(H_0\)
Función de Potencia
La función de potencia es una función de \(\theta\) que mide la probabilidad de rechazar \(H_0\) para cada valor posible del parámetro:
\[\beta(\theta) = P_\theta(T_n \in R)\]
donde \(R\) es la región de rechazo y \(P_\theta\) significa “probabilidad cuando el verdadero valor del parámetro es \(\theta\)”.
Interpretación: - Cuando \(\theta \in \Theta_0\) (bajo \(H_0\) verdadera): \(\beta(\theta)\) es la probabilidad de Error Tipo I - Cuando \(\theta \in \Theta_1\) (bajo \(H_1\) verdadera): \(\beta(\theta) = 1 - P(\text{Error Tipo II})\) es la potencia
Un buen contraste tiene:
- Potencia cercana a 0 para \(\theta \in \Theta_0\) (pocos falsos positivos)
- Potencia cercana a 1 para \(\theta \in \Theta_1\) (muchos verdaderos positivos)
Tamaño y Nivel de una Prueba
Tamaño de la prueba (\(\alpha\)): Es el supremo de la función de potencia sobre \(\Theta_0\):
\[\text{Tamaño} = \sup_{\theta \in \Theta_0} \beta(\theta)\]
En otras palabras, es la máxima probabilidad de Error Tipo I sobre todos los valores en \(H_0\).
Nivel de la prueba (\(\alpha\)): Es un número entre 0 y 1 (típicamente 0.05, 0.01) tal que:
\[\sup_{\theta \in \Theta_0} \beta(\theta) \leq \alpha\]
La prueba se dice que es de “nivel \(\alpha\)” si controla el Error Tipo I en este nivel.
Relación con la Significación
- El nivel de significación \(\alpha\) es el umbral máximo de riesgo de Error Tipo I que estamos dispuestos a aceptar
- Típicamente: \(\alpha = 0.05\) (5%) o \(\alpha = 0.01\) (1%)
- Se elige antes de realizar el análisis
- Una vez elegido, el valor crítico se determina de la distribución bajo \(H_0\) de forma que se cumpla el nivel
Contraste Z para la Media (Varianza Conocida)
Cuando la varianza poblacional \(\sigma^2\) es conocida (situación rara en la práctica), usamos el contraste Z basado en la distribución normal estándar.
Condiciones
- Muestra aleatoria de tamaño \(n\)
- Datos \(X_i \sim N(\mu, \sigma^2)\) con \(\sigma^2\) conocida, O
- Datos arbitrarios con \(n\) grande (Central Limit Theorem)
- Queremos probar hipótesis sobre \(\mu\)
Estadístico de Prueba
Bajo \(H_0: \mu = \mu_0\) con \(\sigma\) conocida:
\[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \sim N(0, 1)\]
El estadístico \(Z\) sigue una distribución normal estándar cuando \(H_0\) es verdadera.
Regiones de Rechazo y Valores Críticos
Para un nivel de significación \(\alpha\):
| Bilateral |
\(\|Z\| > z_{1-\alpha/2}\) |
\(z_{1-\alpha/2}\) |
\(2P(Z > \|z_{obs}\|)\) |
| Unilateral derecha |
\(Z > z_{1-\alpha}\) |
\(z_{1-\alpha}\) |
\(P(Z > z_{obs})\) |
| Unilateral izquierda |
\(Z < -z_{1-\alpha}\) |
\(-z_{1-\alpha}\) |
\(P(Z < z_{obs})\) |
Valores Críticos Comunes (Normal Estándar)
| \(z_q\) |
1.28 |
1.64 |
1.96 |
2.33 |
2.58 |
Ejemplo: Productor de Harina
Problema: Un productor de harina quiere verificar si sus paquetes contienen exactamente 1 kg de harina. - Si hay mucho menos: los clientes se quejan - Si hay mucho más: pérdida de ganancias - Se sabe que: \(X_i \sim N(\mu, \sigma^2 = 25 \text{ g}^2)\)
Hipótesis: - \(H_0: \mu = 1000\) g - \(H_1: \mu \neq 1000\) g (bilateral)
Muestra: \(n = 25\), \(\bar{x} = 1002\) g
Cálculo: \[z_{obs} = \frac{1002 - 1000}{5/\sqrt{25}} = \frac{2}{1} = 2\]
Decisión (con \(\alpha = 0.05\)): - Valor crítico: \(z_{1-0.05/2} = z_{0.975} = 1.96\) - Como \(|z_{obs}| = 2 > 1.96\), rechazamos \(H_0\) - p-valor: \(2P(Z > 2) \approx 0.0455\)
Conclusión: A nivel de significación 5%, la evidencia sugiere que el peso medio es diferente de 1 kg.
Contraste t para la Media (Varianza Desconocida)
En la práctica, la varianza \(\sigma^2\) es desconocida. En este caso, estimamos \(\sigma^2\) con \(S^2\) y usamos la distribución t de Student.
Condiciones
- Muestra aleatoria de tamaño \(n\)
- Datos \(X_i \sim N(\mu, \sigma^2)\) con \(\sigma^2\) desconocida, O
- Datos aproximadamente normales
- Queremos probar hipótesis sobre \(\mu\)
Estimador de la Varianza
La varianza muestral insesgada es:
\[S^2 = \frac{\sum_{i=1}^n (X_i - \bar{X})^2}{n-1}\]
El divisor es \(n-1\) (no \(n\)) para obtener un estimador insesgado.
Estadístico de Prueba y Distribución
Bajo \(H_0: \mu = \mu_0\) con \(\sigma\) desconocida:
\[T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t_{n-1}\]
El estadístico \(T\) sigue una distribución t de Student con \(n-1\) grados de libertad cuando \(H_0\) es verdadera.
Derivación de la Distribución
Empezamos con: \[T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} = \frac{\frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}}{\frac{S}{\sigma}} = \frac{Z}{\sqrt{\frac{C}{n-1}}}\]
donde:
- \(Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \sim N(0,1)\) (normal estándar)
- \(C = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}\) (chi-cuadrado con \(n-1\) gl)
Por definición de la distribución t: Si \(Z \sim N(0,1)\) y \(C \sim \chi^2_k\) son independientes, entonces \(\frac{Z}{\sqrt{C/k}} \sim t_k\).
Por lo tanto: \(T \sim t_{n-1}\)
Regiones de Rechazo y Valores Críticos
Para un nivel de significación \(\alpha\):
| Bilateral |
\(\|T\| > t_{n-1, 1-\alpha/2}\) |
\(t_{n-1, 1-\alpha/2}\) |
\(2P(T_{n-1} > \|t_{obs}\|)\) |
| Unilateral derecha |
\(T > t_{n-1, 1-\alpha}\) |
\(t_{n-1, 1-\alpha}\) |
\(P(T_{n-1} > t_{obs})\) |
| Unilateral izquierda |
\(T < -t_{n-1, 1-\alpha}\) |
\(-t_{n-1, 1-\alpha}\) |
\(P(T_{n-1} < t_{obs})\) |
Tabla de Cuantiles t de Student
| \(df = 10\) |
1.37 |
1.81 |
2.23 |
2.76 |
3.17 |
| \(df = 30\) |
1.31 |
1.70 |
2.04 |
2.46 |
2.75 |
| \(df = \infty\) |
1.28 |
1.64 |
1.96 |
2.33 |
2.58 |
Observación: Conforme aumenta \(n\), la distribución t converge a la normal estándar. Para \(n > 30\), son prácticamente equivalentes.
Ejemplo: Una Muestra t (Productor de Harina Revisado)
Hipótesis: Mismas que antes - \(H_0: \mu = 1000\) g - \(H_1: \mu \neq 1000\) g
Muestra: \(n = 25\), \(\bar{x} = 1002\) g, \(s = 4.9\) g
Cálculo: \[t_{obs} = \frac{1002 - 1000}{4.9/\sqrt{25}} = \frac{2}{0.98} = 2.04\]
Decisión (con \(\alpha = 0.05\)): - Grados de libertad: \(df = 24\) - Valor crítico: \(t_{24, 0.975} = 2.064\) - Como \(|t_{obs}| = 2.04 < 2.064\), no rechazamos \(H_0\) - p-valor: \(2P(T_{24} > 2.04) \approx 0.0525\)
Conclusión: Con estos datos, no tenemos evidencia suficiente (al 5%) de que el peso medio sea diferente de 1 kg.
One Sample t-test
data: datos
t = 2, df = 24, p-value = 0.03
alternative hypothesis: true mean is not equal to 1000
95 percent confidence interval:
1000 1002
sample estimates:
mean of x
1001
IC 95% para mu: 1000 1002
One Sample t-test
data: datos
t = 2, df = 24, p-value = 0.01
alternative hypothesis: true mean is greater than 1000
95 percent confidence interval:
1000 Inf
sample estimates:
mean of x
1001
One Sample t-test
data: datos
t = 2, df = 24, p-value = 1
alternative hypothesis: true mean is less than 1000
95 percent confidence interval:
-Inf 1002
sample estimates:
mean of x
1001
Documentación completa de ambas funciones en Sección B.5.
# t-Test con una muestra
# ----------------------
# Resumen de 'osteo$hba1c'
n = 94.000
media = 8.565
d.t. = 1.799
sem = 0.186
# Estimación de la media μ:
95%-IC(μ) = (8.196, 8.933)
# Test de normalidad de Shapiro-Wilk:
W = 0.983, gl = 94, p = 0.276
# Test de Student para contrastar H₀:μ=μ₀ con μ₀=7.500
texp = 5.740, gl = 93
p < 0.001 para la alternativa bilateral H₁:μ≠μ₀
p < 0.001 para la alternativa unilateral H₁:μ>μ₀
Estimación del efecto bruto
95%-IC(μ-μ₀) = (0.696, 1.433)
# Test para contrastar una proporción binomial
# --------------------------------------------
# Información muestral
n = 94
x = 41 n-x=53
p = 0.436; q = (1-p) = 0.564
# Test Ho:π=0.350
[1] Método exacto
H1 Fexp Valor.p
Cola derecha π>0.350 1.410 0.052
Bilateral π≠0.350 - 0.103
95%-IC(π) = (0.339, 0.542) (método de Clooper-Pearson)
[2] Método aproximado a la distribución normal
Validez: min(nπ₀, n(1-π₀)) = 32.9 (>5, el método es válido)
zexp = 1.643, p = 0.100
95%-IC(π) = (0.335, 0.542) (método de Wilson)
testt() integra Shapiro-Wilk automáticamente. La HbA1c supera el umbral clínico (\(p < 0.001\)); la prevalencia de tabaquismo no difiere del 35% de referencia (\(p = 0.100\)).
Contraste para una Proporción
Cuando la variable de interés es dicotómica (sí/no, éxito/fracaso), estamos interesados en la proporción poblacional \(\pi\).
Función Muestral
Si \(X_i \sim \text{Bernoulli}(\pi)\) (cada observación es 1 con probabilidad \(\pi\), 0 con probabilidad \(1-\pi\)), entonces el número total de “éxitos” es:
\[X = \sum_{i=1}^n X_i \sim \text{Binomial}(n, \pi)\]
La proporción muestral es: \[\hat{\pi} = \frac{X}{n}\]
Distribución bajo \(H_0\)
Bajo \(H_0: \pi = \pi_0\):
\[X \sim \text{Binomial}(n, \pi_0)\]
La distribución del número de éxitos es exactamente binomial. Los valores críticos se encuentran usando tablas binomiales o cálculos computacionales.
Aproximación Normal (Muestra Grande)
Para \(n\) grande (típicamente \(n\pi_0(1-\pi_0) \geq 5\)):
\[Z = \frac{\hat{\pi} - \pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}} \approx N(0,1)\]
Se pueden usar los valores críticos normales en lugar de los binomiales exactos.
Ejemplo: Moneda Justa
Problema: Probamos si una moneda es justa lanzándola 10 veces.
Hipótesis: - \(H_0: \pi = 0.5\) (moneda justa) - \(H_1: \pi \neq 0.5\) (moneda cargada)
Muestra: \(n = 10\), observamos \(x = 9\) caras
Distribución binomial bajo \(H_0\): \(X \sim B(10, 0.5)\)
Tabla de probabilidades acumuladas:
| 0 |
0.0010 |
0.0010 |
Rechazo |
| 1 |
0.0107 |
0.0097 |
Rechazo |
| 2 |
0.0547 |
0.0440 |
|
| … |
… |
… |
No rechazo |
| 8 |
0.9893 |
0.0440 |
|
| 9 |
0.9990 |
0.0097 |
Rechazo |
| 10 |
1.0000 |
0.0010 |
Rechazo |
Con \(\alpha = 0.05\):
- Región de rechazo bilateral: \(\{0, 1\} \cup \{9, 10\}\)
- Como \(x = 9\) está en la región de rechazo, rechazamos \(H_0\)
- p-valor: \(P(X \leq 1) + P(X \geq 9) = 0.0107 + (1 - 0.9893) = 0.0214\)
Conclusión: La evidencia sugiere que la moneda no es justa (es significativamente sesgada hacia caras).
Exact binomial test
data: 9 and 10
number of successes = 9, number of trials = 10, p-value = 0.02
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.555 0.997
sample estimates:
probability of success
0.9
1-sample proportions test with continuity correction
data: 65 out of 100, null probability 0.5
X-squared = 8, df = 1, p-value = 0.004
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.547 0.741
sample estimates:
p
0.65
Intervalo de confianza: 0.555 0.997
Valor-p (p-value)
El valor-p es una de las cantidades más importantes en estadística inferencial.
El valor-p (o p-value) es la probabilidad, calculada asumiendo que \(H_0\) es verdadera, de obtener un valor del estadístico de prueba tan o más extremo que el valor observado.
Fórmula general: \[\text{valor-p} = P(T \text{ sea tan o más extremo que } t_{obs} | H_0)\]
donde “más extremo” depende del tipo de contraste:
- Bilateral: \(P(|T| \geq |t_{obs}|)\)
- Unilateral derecha: \(P(T \geq t_{obs})\)
- Unilateral izquierda: \(P(T \leq t_{obs})\)
Interpretación
El valor-p no es:
- La probabilidad de que \(H_0\) sea verdadera
- La probabilidad de que \(H_1\) sea verdadera
- La probabilidad de haber cometido un error
El valor-p es:
- Una medida de compatibilidad entre los datos y \(H_0\)
- Un p-valor pequeño indica que los datos observados serían muy improbables si \(H_0\) fuera verdadera
Regla de Decisión
Enfoque tradicional con nivel \(\alpha\): - Si p-valor \(< \alpha\) \(\Rightarrow\) Rechazamos \(H_0\) - Si p-valor \(\geq \alpha\) \(\Rightarrow\) No rechazamos \(H_0\)
Enfoque moderno (más flexible): - Reportar el valor-p exacto y dejar que el lector juzgue - Valores muy pequeños (< 0.01) indican evidencia fuerte contra \(H_0\) - Valores pequeños (0.01 - 0.05) indican evidencia moderada - Valores grandes (> 0.05) indican que los datos son compatibles con \(H_0\)
Ejemplo: Cálculo de p-valores
Ejemplo 1 (Normal): - Observamos \(z_{obs} = 2.5\) en un contraste bilateral - p-valor = \(2 P(Z > 2.5) = 2(0.0062) = 0.0124\)
Ejemplo 2 (t-Student): - Observamos \(t_{obs} = 2.04\) con 24 gl en un contraste bilateral - p-valor = \(2 P(T_{24} > 2.04)\) - Usando R: 2 * (1 - pt(2.04, 24)) ≈ 0.0525
Ejemplo 3 (Binomial): - Observamos 9 caras en 10 lanzamientos, contraste bilateral con \(H_0: \pi = 0.5\) - p-valor = \(P(X \leq 1) + P(X \geq 9) = 0.0214\)
Tabla Resumen: Regiones de Aceptación y Rechazo
| Media (\(\sigma\) conocida) |
Z |
\(Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\) |
\(N(0,1)\) |
Rechazo: \(\|Z\| > z_{1-\alpha/2}\) |
Rechazo: \(Z > z_{1-\alpha}\) |
Rechazo: \(Z < -z_{1-\alpha}\) |
| Media (\(\sigma\) desconocida) |
t |
\(T = \frac{\bar{X}-\mu_0}{S/\sqrt{n}}\) |
\(t_{n-1}\) |
Rechazo: \(\|T\| > t_{n-1,1-\alpha/2}\) |
Rechazo: \(T > t_{n-1,1-\alpha}\) |
Rechazo: \(T < -t_{n-1,1-\alpha}\) |
| Proporción |
Binomial |
\(X = \sum X_i\) |
\(B(n,\pi_0)\) |
Rechazo: \(P(X \leq x_l) + P(X \geq x_u) < \alpha\) |
Rechazo: \(P(X \geq x) < \alpha\) |
Rechazo: \(P(X \leq x) < \alpha\) |
| Proporción (grande \(n\)) |
Z |
\(Z = \frac{\hat{\pi}-\pi_0}{\sqrt{\pi_0(1-\pi_0)/n}}\) |
\(N(0,1)\) |
Rechazo: \(\|Z\| > z_{1-\alpha/2}\) |
Rechazo: \(Z > z_{1-\alpha}\) |
Rechazo: \(Z < -z_{1-\alpha}\) |
Ejemplos Completos
Ejemplo 1: Contraste Z Bilateral (Conocida la Varianza)
Problema: El peso de paquetes de cereales debería ser 500 g. Sospechamos que hay variación. Se sabe que \(\sigma = 10\) g.
Datos: Muestra de \(n = 36\) paquetes, \(\bar{x} = 498.5\) g
Hipótesis: \(H_0: \mu = 500\) vs. \(H_1: \mu \neq 500\)
Análisis: \[z_{obs} = \frac{498.5 - 500}{10/\sqrt{36}} = \frac{-1.5}{1.667} = -0.90\]
Con \(\alpha = 0.05\): valor crítico = \(\pm 1.96\)
Decisión: Como \(|-0.90| < 1.96\), no rechazamos \(H_0\)
p-valor: \(2P(Z > 0.90) = 2(0.1841) = 0.3682\)
Conclusión: Los datos no proporcionan evidencia de que el peso medio sea diferente de 500 g.
Ejemplo 2: Contraste t Unilateral (Desconocida la Varianza)
Problema: Un fertilizante se supone que aumenta el rendimiento a más de 100 unidades. Probamos si funciona.
Datos: Muestra de \(n = 16\) parcelas, \(\bar{x} = 105\), \(s = 12\)
Hipótesis: \(H_0: \mu \leq 100\) vs. \(H_1: \mu > 100\) (unilateral derecha)
Análisis: \[t_{obs} = \frac{105 - 100}{12/\sqrt{16}} = \frac{5}{3} = 1.67\]
Con \(\alpha = 0.05\) y \(df = 15\): valor crítico = \(t_{15, 0.95} = 1.753\)
Decisión: Como \(t_{obs} = 1.67 < 1.753\), no rechazamos \(H_0\)
p-valor: \(P(T_{15} > 1.67) \approx 0.058\)
Conclusión: La evidencia es marginal. No podemos afirmar al 5% que el fertilizante aumenta el rendimiento, aunque está cerca.
Ejemplo 3: Contraste Binomial Exacto
Problema: Un fármaco se supone que tiene una tasa de efectos adversos del 5%. Observamos 15 efectos adversos en 100 pacientes. ¿Es significativamente diferente?
Datos: \(n = 100\), \(x = 15\), \(\pi_0 = 0.05\)
Hipótesis: \(H_0: \pi = 0.05\) vs. \(H_1: \pi \neq 0.05\)
Aproximación normal: \[z_{obs} = \frac{0.15 - 0.05}{\sqrt{0.05 \times 0.95 / 100}} = \frac{0.10}{\sqrt{0.00475}} = \frac{0.10}{0.0689} = 1.45\]
Con \(\alpha = 0.05\): valor crítico = \(\pm 1.96\)
Decisión: Como \(|1.45| < 1.96\), no rechazamos \(H_0\)
p-valor: \(2P(Z > 1.45) = 2(0.0735) = 0.147\)
Conclusión: La tasa observada no es significativamente diferente de 0.05.
One Sample t-test
data: datos2
t = 4, df = 15, p-value = 0.001
alternative hypothesis: true mean is greater than 100
95 percent confidence interval:
103 Inf
sample estimates:
mean of x
106
Exact binomial test
data: 15 and 100
number of successes = 15, number of trials = 100, p-value = 1e-04
alternative hypothesis: true probability of success is not equal to 0.05
95 percent confidence interval:
0.0865 0.2353
sample estimates:
probability of success
0.15
Relación entre Hipótesis Unilaterales y Bilaterales
Elección de la Dirección
La dirección del contraste (bilateral vs. unilateral) debe determinarse antes de recopilar datos, basándose en la pregunta de investigación:
Bilateral (\(H_1: \theta \neq \theta_0\)): - Cuando nos interesa desviaciones en ambas direcciones - Ejemplo: ¿Difiere la media de algún valor? - Más conservador (requiere evidencia más fuerte)
Unilateral derecho (\(H_1: \theta > \theta_0\)): - Cuando específicamente buscamos que el parámetro sea mayor - Ejemplo: ¿El nuevo tratamiento mejora el resultado? - Valor crítico es \(z_{1-\alpha}\) (no \(z_{1-\alpha/2}\))
Unilateral izquierdo (\(H_1: \theta < \theta_0\)): - Cuando específicamente buscamos que el parámetro sea menor - Ejemplo: ¿El fármaco reduce los efectos adversos? - Valor crítico es \(-z_{1-\alpha}\)
Implicaciones para Errores
La elección afecta a \(\alpha\) y \(\beta\):
En contraste bilateral con \(\alpha = 0.05\):
- Dividimos \(\alpha\) en ambas colas: \(\alpha/2 = 0.025\) en cada cola
- Valor crítico es más grande (\(z_{0.975} = 1.96\))
- Mayor \(\beta\) (menos poder)
En contraste unilateral con \(\alpha = 0.05\):
- Toda \(\alpha = 0.05\) va en una cola
- Valor crítico es más pequeño (\(z_{0.95} = 1.645\))
- Menor \(\beta\) (más poder)
Por eso es importante elegir antes: Si eliges unilateral después de ver los datos, estás “p-hacking” y aumentas falsamente el poder.
Resumen
Hipótesis: Definimos \(H_0\) (lo que asumimos) y \(H_1\) (lo que queremos demostrar). Deben ser complementarias.
Errores: Error Tipo I (\(\alpha\), falso positivo) y Error Tipo II (\(\beta\), falso negativo) son inversamente relacionados. Solo se reduce ambos aumentando \(n\).
Estadístico de Prueba: Un valor calculado de los datos cuya distribución es conocida bajo \(H_0\).
Región Crítica: Conjunto de valores del estadístico donde rechazamos \(H_0\), determinado por el nivel \(\alpha\).
Contraste Z: Cuando \(\sigma\) es conocida. Estadístico \(Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \sim N(0,1)\)
Contraste t: Cuando \(\sigma\) es desconocida (casos prácticos). Estadístico \(T = \frac{\bar{X}-\mu_0}{S/\sqrt{n}} \sim t_{n-1}\)
Contraste Binomial: Para proporciones. Distribución exacta es \(B(n,\pi_0)\); aproximación normal para \(n\) grande.
p-valor: Probabilidad de observar datos tan extremos o más bajo \(H_0\). Si p-valor \(< \alpha\), rechazamos \(H_0\).
Decisión: Comparamos el valor observado del estadístico con el valor crítico (o comparamos p-valor con \(\alpha\)).
Potencia: La capacidad de detectar un efecto real. Mejora con mayor \(n\), mayor diferencia real, o mayor \(\alpha\).
Tabla de Decisión Rápida
| ¿Se conoce \(\sigma\)? |
Sí → Contraste Z; No → Contraste t |
| ¿Bilateral o unilateral? |
Determinar antes de recopilar datos |
| ¿Qué \(\alpha\)? |
Típicamente 0.05; a veces 0.01 |
| ¿Cómo decidir? |
Opción 1: Comparar \(|T|\) con valor crítico; Opción 2: Comparar p-valor con \(\alpha\) |
| ¿Qué significa “no rechazar”? |
NO significa aceptar \(H_0\); solo significa “no tenemos evidencia suficiente contra \(H_0\)” |
Ejercicios
Ejercicio 1: Conceptos Básicos
Un médico sospecha que el nivel medio de colesterol en una población es mayor a 200 mg/dL. Formule las hipótesis apropiadas e identifique los tipos de error que podrían ocurrir.
Ejercicio 2: Contraste Z
Una máquina que produce tornillos tiene un ajuste tal que \(\sigma = 0.5\) mm. Se toman 25 tornillos y se mide su diámetro promedio: \(\bar{x} = 10.2\) mm. El diámetro especificado es 10 mm.
- Formule \(H_0\) y \(H_1\)
- Calcule el estadístico Z
- ¿Rechaza \(H_0\) con \(\alpha = 0.05\)? (bilateral)
- Calcule el p-valor
Ejercicio 3: Contraste t
Se obtuvieron las siguientes mediciones de tiempo de reacción (en segundos) para 10 sujetos:
0.42, 0.45, 0.38, 0.41, 0.39, 0.44, 0.40, 0.43, 0.37, 0.46
- ¿Es diferente de 0.40 segundos con \(\alpha = 0.05\)? (bilateral)
- Calcule \(\bar{x}\) y \(s\)
- Calcule el estadístico t
- Determine el p-valor
Código R sugerido:
One Sample t-test
data: datos
t = 2, df = 9, p-value = 0.2
alternative hypothesis: true mean is not equal to 0.4
95 percent confidence interval:
0.393 0.437
sample estimates:
mean of x
0.415
Ejercicio 4: Contraste Binomial
Un casino afirma que su dado es justo. Lanzamos 20 veces y obtenemos “6” en 6 ocasiones.
- Formule \(H_0\) y \(H_1\)
- ¿Es inusual este resultado? Calcule el p-valor
- ¿Rechazaría que el dado es justo con \(\alpha = 0.05\)?
Código R sugerido:
Exact binomial test
data: 6 and 20
number of successes = 6, number of trials = 20, p-value = 0.1
alternative hypothesis: true probability of success is not equal to 0.167
95 percent confidence interval:
0.119 0.543
sample estimates:
probability of success
0.3
Ejercicio 5: Decisión con p-valor
Para cada uno de los siguientes p-valores, indique si rechaza \(H_0\) con \(\alpha = 0.05\):
- p-valor = 0.031
- p-valor = 0.052
- p-valor = 0.0001
- p-valor = 0.450
Ejercicio 6: Interpretación de Resultados
Un estudio investiga si el peso medio de una población difiere de 70 kg. Se obtiene t = 1.85 con 24 grados de libertad y p-valor = 0.078.
- ¿Rechaza \(H_0\) con \(\alpha = 0.05\)?
- ¿Rechazaría con \(\alpha = 0.10\)?
- ¿Qué puede concluir de estos resultados?
- ¿Por qué no es correcto decir “se acepta \(H_0\)”?
Respuestas a los Ejercicios
Ejercicio 1: - H₀: μ = 200 mg/dL - H₁: μ > 200 mg/dL (unilateral derecha) - Error Tipo I: rechazar H₀ siendo verdadera (afirmar que colesterol > 200 cuando realmente = 200) - Error Tipo II: no rechazar H₀ siendo falsa (concluir que colesterol = 200 cuando realmente > 200)
Ejercicio 2: - a) H₀: μ = 10 mm, H₁: μ ≠ 10 mm - b) Z = (10.2 - 10)/(0.5/√25) = 0.2/0.1 = 2.0 - c) Z₀.₀₂₅ = 1.96; |2.0| > 1.96, rechaza H₀ - d) p-valor ≈ 2×P(Z > 2) ≈ 2×0.0228 = 0.0456
Ejercicio 3: - b) X̄ ≈ 0.415, s ≈ 0.0318 - c) t = (0.415 - 0.40)/(0.0318/√10) = 0.015/0.0101 ≈ 1.49 - d) p-valor ≈ 0.17 (df=9); no rechaza H₀ con α=0.05
Ejercicio 4: - a) H₀: p = 1/6, H₁: p ≠ 1/6 - b) Bajo H₀, X ~ Binomial(20, 1/6); P(X=6) ≈ 0.20 aproximadamente - c) p-valor > 0.05; no rechaza que el dado sea justo
Ejercicio 5: - a) p = 0.031 < 0.05: Rechaza H₀ - b) p = 0.052 > 0.05: No rechaza - c) p = 0.0001 < 0.05: Rechaza H₀ - d) p = 0.450 > 0.05: No rechaza
Ejercicio 6: - a) p-valor = 0.078 > 0.05: No rechaza H₀ - b) p-valor = 0.078 < 0.10: Rechaza H₀ con α=0.10 - c) Evidencia marginal contra H₀; resultados borderline - d) Porque no rechazar H₀ no significa que sea verdadera, solo que no hay evidencia suficiente en los datos
Fin de Semana 8: Contrastes de Hipótesis (Parte I)
En las próximas semanas estudiaremos:
- Contrastes para diferencia de medias (dos muestras)
- Contrastes para varianzas
- ANOVA (análisis de varianza)
- Contrastes para independencia