3Semana 3 — Fundamentos de la Teoría de la Probabilidad
3.1 Introducción
La probabilidad es el fundamento del razonamiento estadístico. Esta semana cubriremos los conceptos básicos de la teoría de la probabilidad: experimentos aleatorios, espacios muestrales, eventos, y las herramientas matemáticas para cuantificar la incertidumbre. Aprenderemos los axiomas de Kolmogorov, el Teorema de Bayes, y cómo actualizar nuestras creencias con nueva información.
3.2 Experimentos Aleatorios y Eventos
3.2.1 Experimento Aleatorio
NotaDefinición: Experimento Aleatorio
Un experimento aleatorio es un proceso que:
Puede repetirse bajo condiciones idénticas
Tiene al menos dos resultados posibles diferentes
Se realiza de una manera claramente especificada
Tiene un resultado que no puede predecirse con certeza antes de realizarse
El espacio muestral\(\Omega\) (o \(S\)) es el conjunto de todos los resultados posibles del experimento.
Un evento\(A\) es un subconjunto del espacio muestral. Decimos que un evento “ocurre” si el resultado del experimento es un elemento de \(A\).
TipEjemplo 3.1: Aleatorización en Ensayo Clínico
Experimento: Aleatorización de un paciente a un grupo de tratamiento (\(T\)) o control (\(C\)) mediante el lanzamiento de una moneda.
Espacio muestral:\[\Omega = \{T, C\}\]
Eventos posibles: - Evento \(A\): “el paciente es asignado al grupo de tratamiento” → \(A = \{T\}\) - Evento \(B\): “el paciente es asignado al grupo control” → \(B = \{C\}\)
3.2.2 Evento Elemental y Partición
NotaDefinición: Evento Elemental
Un evento elemental es un evento que contiene exactamente un resultado del experimento. Por ejemplo, \(\{2\}\) es un evento elemental en el experimento de lanzar un dado.
NotaDefinición: Partición Completa
Los eventos \(A_1, A_2, \ldots, A_n\) forman una partición completa del espacio muestral \(\Omega\) si:
\(A_i \cap A_j = \emptyset\) para todo \(i \neq j\) (son mutuamente disjuntos)
\(A_1 \cup A_2 \cup \ldots \cup A_n = \Omega\) (cubren todo el espacio)
\(\mathbb{P}(A_i) > 0\) para cada \(i\) (cada uno tiene probabilidad positiva)
3.3 Álgebra de Conjuntos
Los eventos se pueden combinar usando operaciones de conjuntos. A continuación presentamos las operaciones fundamentales:
NotaOperaciones Básicas de Conjuntos
Conjunto vacío:\(\emptyset\) es el conjunto sin elementos. En términos de eventos, \(A = \emptyset\) significa que el evento es imposible.
Subconjunto:\(A \subseteq B\) significa que cada elemento de \(A\) está también en \(B\). En términos de eventos: “si \(A\) ocurre, entonces \(B\) ocurre”.
Intersección:\(A \cap B\) es el conjunto de elementos que están en ambos \(A\) y \(B\). En términos de eventos: “tanto \(A\) como \(B\) ocurren”.
Unión:\(A \cup B\) es el conjunto de elementos que están en \(A\) o en \(B\) (o en ambos). En términos de eventos: “al menos uno de \(A\) o \(B\) ocurre”.
Complemento:\(\overline{A}\) (o \(A^c\)) es el conjunto de elementos en \(\Omega\) que no están en \(A\). En términos de eventos: “\(A\) no ocurre”.
Diferencia:\(A - B\) (o \(A - B\)) es el conjunto de elementos en \(A\) pero no en \(B\). En términos de eventos: “\(A\) ocurre pero \(B\) no ocurre”.
3.3.1 Relaciones y Operaciones de Eventos
La siguiente tabla resume las correspondencias entre descripciones de eventos y notación de conjuntos:
Descripción
Notación
Significado
\(A\) ocurre con certeza
\(A = \Omega\)
evento seguro
\(A\) es imposible
\(A = \emptyset\)
evento imposible
Si \(A\) ocurre, entonces \(B\) ocurre
\(A \subseteq B\)
\(A\) es subconjunto de \(B\)
\(A\) y \(B\) nunca ocurren juntos
\(A \cap B = \emptyset\)
eventos disjuntos
\(A\) y \(B\) son complementarios
\(B = \overline{A}\)
\(B\) ocurre si y solo si \(A\) no ocurre
Al menos uno de los \(A_i\) ocurre
\(A = \bigcup_{i} A_i\)
unión de eventos
Todos los \(A_i\) ocurren
\(A = \bigcap_{i} A_i\)
intersección de eventos
3.3.2 Diagramas de Venn
Los diagramas de Venn proporcionan representaciones visuales de operaciones entre conjuntos. A continuación se muestran las operaciones fundamentales:
3.3.3 Leyes de De Morgan
Las Leyes de De Morgan son reglas fundamentales que relacionan la unión, la intersección y el complemento de conjuntos. Son extremadamente útiles para simplificar expresiones probabilísticas complejas.
ImportanteLeyes de De Morgan
Para cualquier par de eventos \(A\) y \(B\):
Complemento de la unión: El complemento de la unión de dos conjuntos es la intersección de sus complementos. \[\overline{A \cup B} = \overline{A} \cap \overline{B}\]Significado: “Ni A ni B ocurren” es lo mismo que “A no ocurre Y B no ocurre”.
Complemento de la intersección: El complemento de la intersección de dos conjuntos es la unión de sus complementos. \[\overline{A \cap B} = \overline{A} \cup \overline{B}\]Significado: “No ocurre que ambos A y B ocurran” es lo mismo que “A no ocurre O B no ocurre”.
TipEjemplo 3.2: Visualización de De Morgan
Representación de \(\overline{A \cup B} = \overline{A} \cap \overline{B}\):
TipEjemplo 3.3: Aplicación Práctica con 3 Conjuntos
En estudios epidemiológicos es común analizar la comorbilidad de tres condiciones (A, B, C). Un diagrama de Venn de 3 conjuntos permite visualizar todas las posibles intersecciones:
Problema: En una muestra de 100 pacientes:
40 tienen Hipertensión (A)
30 tienen Diabetes (B)
20 tienen Obesidad (C)
10 tienen A y B
8 tienen A y C
5 tienen B y C
3 tienen las tres condiciones
¿Cuántos pacientes tienen al menos una condición? Usando el principio de Inclusión-Exclusión: \(|A \cup B \cup C| = 40 + 30 + 20 - (10 + 8 + 5) + 3 = 90 - 23 + 3 = 70 \text{ pacientes}.\)
3.4 Definiciones de Probabilidad
Existen varias formas de formalizar el concepto de probabilidad, cada una reflejando una filosofía diferente sobre cómo interpretamos la “probabilidad”.
3.4.1 Probabilidad Clásica (Laplace)
NotaDefinición: Probabilidad Clásica de Laplace
La probabilidad clásica se define como:
\[\mathbb{P}(A) = \frac{\text{Número de resultados favorables a } A}{\text{Número total de resultados posibles}} = \frac{|A|}{|\Omega|}\]
Supuestos: - Hay al menos dos resultados elementales posibles - Exactamente uno de los resultados posibles ocurre en cada experimento - El número de resultados elementales es finito - Cada resultado elemental ocurre con la misma probabilidad (equiprobabilidad)
TipEjemplo 3.4: Moneda justa en Aleatorización
Experimento: Lanzar una moneda para decidir el grupo de tratamiento de un paciente.
Evento \(A\): “el paciente es asignado al grupo de tratamiento (\(T\))”
Resultados favorables a \(A\):\(\{T\}\) → 1 resultado
Resultados totales:\(\{T, C\}\) → 2 resultados
\[\mathbb{P}(A) = \frac{1}{2} = 0.5\]
3.4.2 Probabilidad Frecuentista (von Mises)
NotaDefinición: Probabilidad Frecuentista
Sea \(n\) el número de repeticiones de un experimento y \(f_n(A)\) el número de veces que ocurre el evento \(A\). La frecuencia relativa es:
\[\text{Frecuencia relativa} = \frac{f_n(A)}{n}\]
La probabilidad frecuentista de \(A\) se define como el límite de la frecuencia relativa cuando \(n \to \infty\):
Simulamos asignar \(n\) pacientes a un grupo de tratamiento:
Cuadro 3.1: Código R
Mostrar el código
set.seed(123)n <-10asignacion <-rbinom(n, size =1, prob =0.5)prop_10 <-sum(asignacion) / ncat("n =", n, ": proporción asignada a tratamiento =", prop_10, "\n")
n = 10 : proporción asignada a tratamiento = 0.6
Cuadro 3.2: Código R
Mostrar el código
n <-100asignacion <-rbinom(n, size =1, prob =0.5)prop_100 <-sum(asignacion) / ncat("n =", n, ": proporción asignada a tratamiento =", prop_100, "\n")
n = 100 : proporción asignada a tratamiento = 0.46
Cuadro 3.3: Código R
Mostrar el código
n <-1000asignacion <-rbinom(n, size =1, prob =0.5)prop_1000 <-sum(asignacion) / ncat("n =", n, ": proporción asignada a tratamiento =", prop_1000, "\n")
n = 1000 : proporción asignada a tratamiento = 0.497
NotaInterpretación
La simulación ilustra la Ley de los Grandes Números: conforme incrementamos el tamaño muestral de 10 a 1,000 pacientes, la proporción observada de asignados al tratamiento converge hacia la probabilidad teórica de 0.5. Con apenas 10 pacientes observamos fluctuaciones notables (prop_10 = 0.60), con 100 ya se acerca al valor esperado (prop_100 = 0.46), y con 1,000 pacientes la proporción se estabiliza muy cerca de 0.5 (prop_1000 = 0.497). Esto demuestra empíricamente por qué los estudios clínicos requieren tamaños muestrales adecuados: garantizan que la frecuencia relativa refleje la probabilidad verdadera subyacente en la aleatorización.
A medida que \(n\) aumenta, la proporción de pacientes en el grupo de tratamiento se acerca a 0.5.
3.4.3 Probabilidad Axiomática (Kolmogorov)
NotaDefinición: Axiomas de Kolmogorov
Una función \(\mathbb{P}: \mathcal{F} \to [0,1]\) que asigna un número a cada evento en \(\Omega\) es una medida de probabilidad si satisface los siguientes axiomas:
Axioma 1 (No negatividad):\[\mathbb{P}(A) \geq 0 \text{ para todo evento } A\]
Componentes de un espacio de probabilidad: 1. Un espacio muestral \(\Omega\) (el conjunto de todos los resultados posibles) 2. Una \(\sigma\)-álgebra \(\mathcal{F}\) (una colección de eventos) 3. Una medida de probabilidad \(\mathbb{P}\) (que satisface los axiomas anteriores)
La definición axiomática de Kolmogorov es la más general y es la base de toda la teoría moderna de la probabilidad.
3.5 Propiedades de la Probabilidad
De los axiomas de Kolmogorov se derivan varias propiedades útiles:
AdvertenciaTeorema: Propiedades Fundamentales de la Probabilidad
Sea \(A, B, A_1, A_2, \ldots\) eventos en un espacio de probabilidad. Entonces:
Propiedad 1: Probabilidad del complemento
\[\mathbb{P}(\overline{A}) = 1 - \mathbb{P}(A)\]
Prueba: Note que \(A \cup \overline{A} = \Omega\) y \(A \cap \overline{A} = \emptyset\). Por el Axioma 3:
Prueba: Observe que \(A \cup B = A \cup (B - A)\) donde estos son disjuntos, y \(B = (A \cap B) \cup (B - A)\).
Propiedad 6: Aditividad para eventos disjuntos
Si \(A \cap B = \emptyset\), entonces:
\[\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B)\]
TipEjemplo 3.6: Aplicación de propiedades
Problema: En una consulta médica, el 30% de los pacientes tienen hipertensión (\(H\)). Entre los pacientes hipertensos, el 80% también presenta obesidad. ¿Cuál es la probabilidad de que un paciente NO tenga hipertensión?
Solución: Sea \(H\) = “tener hipertensión”. Entonces \(\mathbb{P}(H) = 0.30\).
Por la Propiedad 1: \[\mathbb{P}(\text{sin hipertensión}) = \mathbb{P}(\overline{H}) = 1 - 0.30 = 0.70\]
3.6 Teorema de la Suma (Inclusión-Exclusión)
AdvertenciaTeorema: Regla de la Suma (Inclusión-Exclusión)
Interpretación: Es la probabilidad de que ocurra \(A\) cuando ya sabemos que \(B\) ocurrió. Formalmente, es la fracción de casos en que \(B\) ocurre que también incluyen la ocurrencia de \(A\).
TipEjemplo 3.8: Probabilidad condicional en aleatorización
Experimento: Asignación de dos pacientes consecutivos a grupos de tratamiento.
Eventos: - \(A\) = “el segundo paciente es asignado al grupo de tratamiento (\(T_2\))” - \(B\) = “el primer paciente fue asignado al grupo de tratamiento (\(T_1\))”
Cálculo: Si la asignación es aleatoria e independiente, \(\mathbb{P}(T_1) = 0.5\), \(\mathbb{P}(T_2) = 0.5\). La probabilidad condicional \(\mathbb{P}(T_2|T_1) = \mathbb{P}(T_2) = 0.5\) (por independencia).
Nota importante: Independencia es diferente de “disjuntos” (mutuamente excluyentes). Dos eventos disjuntos tienen \(\mathbb{P}(A \cap B) = 0\), lo cual es diferente de independencia.
TipEjemplo 3.9: Aleatorización independiente
Experimento: Asignar dos pacientes consecutivos al grupo de tratamiento (\(T\)) o control (\(C\)).
Eventos: - \(A\) = “primer paciente asignado al grupo \(T\)” - \(B\) = “segundo paciente asignado al grupo \(T\)”
Interpretación: La probabilidad de \(B\) se puede calcular como una suma ponderada de las probabilidades condicionales de \(B\) bajo cada posibilidad en la partición, ponderadas por las probabilidades de cada parte.
TipEjemplo 3.10: Diagnóstico de una enfermedad (Ley de Probabilidad Total)
Escenario: Una enfermedad se distribuye en una población según tres grupos de riesgo:
Grupo 1 (Bajo riesgo): 60% de la población, tasa de enfermedad = 2%
Grupo 2 (Riesgo moderado): 30% de la población, tasa de enfermedad = 10%
Grupo 3 (Alto riesgo): 10% de la población, tasa de enfermedad = 25%
Aplicación de la Ley de la Probabilidad Total:\[\mathbb{P}(B) = \mathbb{P}(B|A_1) \cdot \mathbb{P}(A_1) + \mathbb{P}(B|A_2) \cdot \mathbb{P}(A_2) + \mathbb{P}(B|A_3) \cdot \mathbb{P}(A_3)\]\[= 0.02 \times 0.60 + 0.10 \times 0.30 + 0.25 \times 0.10\]\[= 0.012 + 0.03 + 0.025 = 0.067\]
Interpretación: La probabilidad global de padecer la enfermedad en esta población es del 6.7%.
3.10 Teorema de Bayes
El Teorema de Bayes es uno de los resultados más importantes de la teoría de la probabilidad y es fundamental en estadística moderna y aprendizaje automático.
3.10.1 Forma Simple del Teorema de Bayes
NotaTeorema: Teorema de Bayes (Forma Simple)
Para dos eventos \(A\) y \(B\) con \(\mathbb{P}(B) > 0\):
Terminología: - \(\mathbb{P}(A|B)\) = probabilidad a posteriori (después de observar \(B\))
- \(\mathbb{P}(A)\) = probabilidad a priori (antes de observar \(B\))
- \(\mathbb{P}(B|A)\) = verosimilitud (probabilidad de la evidencia bajo el supuesto)
- \(\mathbb{P}(B)\) = probabilidad marginal de la evidencia
3.10.2 Forma General con Partición
NotaTeorema: Teorema de Bayes (Forma General)
Sea \(\{A_1, A_2, \ldots, A_n\}\) una partición completa del espacio muestral. Para un evento \(B\) con \(\mathbb{P}(B) > 0\):
Interpretación: Aunque el test tiene 95% de sensibilidad, si una persona da positivo, la probabilidad de que realmente esté enferma es solo de aproximadamente 33%. Esto sucede porque la enfermedad es rara (baja prevalencia) y hay muchos falsos positivos.
Este cálculo implementa el Teorema de Bayes en contexto diagnóstico: aunque la prueba posee 95% de sensibilidad (detecta enfermedad cuando existe), el Valor Predictivo Positivo (VPP ≈ 0.333) es sustancialmente menor debido a la baja prevalencia (5%). Con una enfermedad rara, la mayoría de resultados positivos son falsos positivos. En la consulta clínica, este resultado orienta decisiones: ante test positivo con baja prevalencia, es prudente confirmar con prueba adicional antes de iniciar tratamiento, ilustrando cómo la probabilidad a priori (prevalencia) moldea la interpretación clínica de la evidencia.
:::
3.10.4 Ejemplo: Clasificación de pacientse
TipEjemplo 3.12: Clasificación de pacientes (Bayes)
Escenario: Un médico quiere clasificar a un paciente como de alto riesgo o bajo riesgo de sufrir una patología cardíaca basándose en tres factores de riesgo (ej. hipertensión \(W_1\), tabaquismo \(W_2\), obesidad \(W_3\)).
Información disponible: - \(\mathbb{P}(E)\) = probabilidad a priori de tener la patología - \(\mathbb{P}(W_i|E)\) = probabilidad de que el factor \(W_i\) aparezca en pacientes enfermos - \(\mathbb{P}(W_i|\overline{E})\) = probabilidad de que el factor \(W_i\) aparezca en pacientes sanos
Problema: Clasificar a un paciente que presenta los factores \(W_1, W_2, W_3\).
Solución usando Bayes:
Se clasifica como de “Alto Riesgo” si la probabilidad a posteriori es alta: \[\frac{\mathbb{P}(E|W_1 \cap W_2 \cap W_3)}{\mathbb{P}(\overline{E}|W_1 \cap W_2 \cap W_3)} > c\]
donde \(c\) es un umbral clínico.
Asumiendo independencia condicional de los factores:
Aplicación clínica: - Permite integrar múltiples biomarcadores o factores de riesgo de manera eficiente. - Proporciona una medida de riesgo individualizada (probabilidad a posteriori). - Ayuda en la toma de decisiones clínicas para el cribado o tratamiento preventivo.
3.11 Resumen
3.11.1 Conceptos Clave
Experimento aleatorio: Un proceso con resultado incierto pero repetible
Espacio muestral \(\Omega\): El conjunto de todos los resultados posibles
Evento: Un subconjunto del espacio muestral
Partición: Una división del espacio muestral en eventos mutuamente disjuntos
Ejercicio 3.1: En una clase hay 30 estudiantes de doctorado asistiendo a un seminario de Bioestadística avanzada en Medicina. De ellos, 18 se graduaron en Medicina, 15 tienen un grado en Estadistica y 10 estudiantes estudiaron ambos grados. Si seleccionamos un estudiante al azar:
¿Cuál es la probabilidad de que se graduado en Medicina o estadística?
¿Cuál es la probabilidad de que haya estudiado solo Medicina?
¿Cuál es la probabilidad de que no hay estudiado ninguna de las dos?
Ejercicio 3.2: Un médico tiene dos opciones terapeúticas de antibióticos de primera línea (A o B) y tres de segunda línea de administración conjunta al tratamiento principal (1, 2, o 3) para el tratamiento de una enfermedad infecciosa y todas las opciones terapeúticas son igualmente eficaces. Si todas las opciones se eligen al azar:
¿Cuál es el espacio muestral?
¿Cuál es la probabilidad de elegir el antibiotico de primera línea A?
¿Cuál es la probabilidad de elegir el antibiotico de primera línea B y el de segunda línea 2?
Ejercicio 3.3: En un hospital, la probabilidad de que un paciente ingrese por fractura de cadera en un día es 0.1. Si evaluamos tres días independientemente:
¿Cuál es la probabilidad de que no ingrese ningún paciente?
¿Cuál es la probabilidad de que exactamente ingrese uno?
Ejercicio 3.4: Se sabe que:
El 60% de los pacientes de una consulta son mujeres
El 40% de las mujeres tinen menos de 30 años
El 30% de los hombres tienen menos de 30 años
Si seleccionamos un cliente al azar:
¿Cuál es la probabilidad de que un paciente tenga menos de 30 años?
Si un paciente tiene 30 años, ¿cuál es la probabilidad de que sea mujer?
Ejercicio 3.5: Un test para detectar una enfermedad rara tiene:
98% de sensibilidad (detecta la enfermedad cuando está presente)
95% de especificidad (identifica correctamente a personas sanas)
La enfermedad afecta al 0.5% de la población
Si una persona da positivo en el test, ¿cuál es la probabilidad de que realmente esté enferma?
Interprete el resultado. ¿Por qué la probabilidad no es más alta?
Ejercicio 3.6: Una empresa privada vende ecografos a tres hospitales en tres ciudades distintas: Madrid (40% de ventas), Barcelona (35%) y Valencia (25%). La probabilidad de cumplir la cuota de ventas es:
Madrid: 0.8
Barcelona: 0.85
Valencia: 0.7
Si se selecciona un mes al azar:
¿Cuál es la probabilidad de que se cumpla la cuota?
Si se cumplió la cuota, ¿cuál es la probabilidad de que haya sido en Barcelona?
3.13 Respuestas a los Ejercicios
Ejercicio 3.1: Diagramas de Venn
- a) P(M ∪ E) = P(M) + P(E) - P(M ∩ E) = (18+15-10)/30 = 23/30 ≈ 0.767
- b) P(Solo M) = (18-10)/30 = 8/30 ≈ 0.267
- c) P(Ninguna) = 1 - 23/30 = 7/30 ≈ 0.233
Ejercicio 3.2: Espacio Muestral y Probabilidad
- a) Ω = {A1, A2, A3, B1, B2, B3}, |Ω| = 6
- b) P(A) = 3/6 = 0.5
- c) P(B y 2) = 1/6 ≈ 0.167
Ejercicio 3.3: Independencia
- a) P(Ningún ingreso) = (0.9)³ = 0.729
- b) P(exactamente 1 ingreso) = C(3,1)×(0.1)¹×(0.9)² = 3×0.1×0.81 = 0.243
- Nota: Más adelante veremos como caalcular esta probabilidad usando la fórmula de la distribución Binomial (n, p).
Ejercicio 3.4: Probabilidad Total y Teorema de Bayes
- a) P(Menos de 30 años) = 0.6×0.4 + 0.4×0.3 = 0.24 + 0.12 = 0.36
- b) P(Mujer|Menos de 30 años) = (0.6x0.4)/0.36 = 0.24/0.36 = 2/3 ≈ 0.667
Ejercicio 3.5: Test Diagnóstico (Bayes)
- a) P(Enfermedad|Positivo) = (0.98×0.005)/(0.98×0.005 + 0.05×0.995) = 0.0049/(0.0049+0.04975) ≈ 0.090
- b) Aunque el test es muy preciso (98% sensibilidad), como la enfermedad es rara (0.5%), la mayoría de positivos son falsos positivos.
Ejercicio 3.6: Probabilidad Total y Bayes (Hospitales)
- a) P(Cuota) = 0.4×0.8 + 0.35×0.85 + 0.25×0.7 = 0.32 + 0.2975 + 0.175 = 0.7925
- b) P(Barcelona|Cuota) = (0.35×0.85)/0.7925 = 0.2975/0.7925 ≈ 0.375
TipMétodos Avanzados
Para ampliar los contenidos de este capítulo con técnicas estadísticas avanzadas, visita: