En estadística, cuando los datos no cumplen con los supuestos de normalidad o las varianzas entre grupos no son homogéneas, las pruebas no paramétricas ofrecen alternativas robustas. Una de estas pruebas es la prueba de Kruskal-Wallis, que permite comparar más de dos grupos independientes. Para entenderla mejor, es útil conocer primero su predecesora: la prueba de Mann-Whitney U.
La Prueba de Mann-Whitney U: Comparación entre Dos Grupos
La prueba de Mann-Whitney U es una alternativa no paramétrica a la prueba t de Student para dos muestras independientes. Compara las distribuciones de dos grupos utilizando rangos en lugar de medias, lo que la hace adecuada cuando:
- Los datos no son normales.
- Las varianzas no son homogéneas.
Ejemplo de Uso
Supongamos que queremos comparar la longitud del sépalo (Sepal.Length
) entre dos especies de flores (setosa
y versicolor
) del conjunto de datos iris
.
# Cargar datos
data(iris)
# Filtrar dos grupos
iris_subset <- iris[iris$Species %in% c("setosa", "versicolor"), ]
# Prueba de Mann-Whitney U
wilcox.test(Sepal.Length ~ Species, data = iris_subset)
Resultado:
Wilcoxon rank sum test with continuity correction
data: Sepal.Length by Species
W = 168.5, p-value = 8.346e-14
alternative hypothesis: true location shift is not equal to 0
Interpretación:
- El valor p es < 0.05, lo que indica diferencias significativas en la longitud del sépalo entre
setosa
yversicolor
.
La prueba de Mann-Whitney solo permite comparar dos grupos. Para más de dos grupos, utilizamos la prueba de Kruskal-Wallis, que es una extensión de esta.
La Prueba de Kruskal-Wallis: Comparación de Más de Dos Grupos
La prueba de Kruskal-Wallis amplía el enfoque de Mann-Whitney a múltiples grupos. Evalúa si las distribuciones de las muestras difieren significativamente al comparar los rangos promedio.
¿Cuándo usar la prueba de Kruskal-Wallis?
- Los datos no son normales.
- Las varianzas entre los grupos no son homogéneas.
- Queremos comparar más de dos grupos.
Al igual que la ANOVA, Kruskal-Wallis evalúa si al menos un grupo difiere de los demás, pero se basa en rangos en lugar de medias.
Supuestos de la Prueba
Antes de aplicar Kruskal-Wallis, verifica:
- Independencia: Las muestras deben ser independientes.
- Escala ordinal o numérica: Las variables deben estar al menos en una escala ordinal.
- Distribuciones similares: Las formas de las distribuciones entre grupos deben ser similares.
Implementación en R
Usaremos el conjunto de datos iris
para comparar la longitud del sépalo (Sepal.Length
) entre las tres especies de flores (Species
).
Paso 1: Exploración inicial
# Exploración
head(iris)
summary(iris)
Paso 2: Aplicar la prueba de Kruskal-Wallis
# Prueba de Kruskal-Wallis
kruskal.test(Sepal.Length ~ Species, data = iris)
Resultado:
Kruskal-Wallis rank sum test
data: Sepal.Length by Species
Kruskal-Wallis chi-squared = 96.937, df = 2, p-value < 2.2e-16
Interpretación:
- El valor p es < 0.05, lo que indica diferencias significativas en las distribuciones de las tres especies.
- Esto significa que al menos una especie difiere de las demás en términos de la longitud del sépalo.
Comparaciones Post-hoc
Si se detectan diferencias significativas, realizamos pruebas post-hoc para identificar qué grupos difieren.
Paso 3: Prueba de Dunn
La prueba de Dunn es una técnica post-hoc común para Kruskal-Wallis. Requiere el paquete FSA
en R.
if (!require(FSA)) install.packages("FSA")
library(FSA)
# Comparaciones múltiples
dunnTest(Sepal.Length ~ Species, data = iris, method = "bonferroni")
Resultado esperado:
Dunn (1964) Kruskal-Wallis multiple comparison
p-values adjusted with the Bonferroni method.
Comparison Z P.unadj P.adj
1 setosa - versicolor -6.106326 1.019504e-09 3.058513e-09
2 setosa - virginica -9.741785 2.000099e-22 6.000296e-22
3 versicolor - virginica -3.635459 2.774866e-04 8.324597e-04
Dunn (1964) Kruskal-Wallis multiple comparison
p-values adjusted with the Bonferroni method.
Interpretación:
Para interpretar los resultados de la prueba de Dunn (con el ajuste de Bonferroni para los valores p), sigue estos pasos:
Resultados del análisis
- Columnas clave:
- Z: Estadístico de la prueba que mide la magnitud de la diferencia entre los rangos promedio de los grupos.
- P.unadj: Valor p sin ajustar, correspondiente a la significancia del estadístico Z.
- P.adj: Valor p ajustado por Bonferroni, que corrige para comparaciones múltiples (reduce el riesgo de error tipo I).
- Límites de significancia:
- Si P.adj es menor que el nivel de significancia establecido (habitualmente α = 0.05), hay diferencias significativas entre los grupos comparados.
- Si P.adj es mayor que 0.05, no hay diferencias significativas.
Interpretación de los resultados
Comparaciones de pares:
- Setosa – Versicolor:
- Estadístico Z: -6.11.
- P.adj: 3.06e-09 (< 0.05).
- Interpretación: Hay diferencias significativas entre
setosa
yversicolor
. Esto significa que las distribuciones de los dos grupos son significativamente diferentes.
- Setosa – Virginica:
- Estadístico Z: -9.74.
- P.adj: 6.00e-22 (< 0.05).
- Interpretación: Hay diferencias significativas entre
setosa
yvirginica
. Las distribuciones de estos grupos también son diferentes.
- Versicolor – Virginica:
- Estadístico Z: -3.64.
- P.adj: 8.32e-04 (< 0.05).
- Interpretación: También hay diferencias significativas entre
versicolor
yvirginica
. Aunque las diferencias son menos pronunciadas que en las otras comparaciones (reflejado en un Z menor), sigue siendo estadísticamente significativo.
Conclusión global
Con base en los valores p ajustados:
- Todos los pares (
setosa - versicolor
,setosa - virginica
,versicolor - virginica
) presentan diferencias significativas. - Las tres especies tienen distribuciones significativamente diferentes en términos de la variable analizada (probablemente
Sepal.Length
en este caso).
Esto sugiere que cada grupo es único respecto a la métrica utilizada, y no hay superposición estadística significativa entre ellos.
Nota sobre el ajuste Bonferroni
El método Bonferroni es conservador y puede incrementar el riesgo de error tipo II (falsos negativos). Sin embargo, en este caso, incluso con el ajuste, todas las comparaciones muestran valores p significativos, lo que refuerza la robustez del resultado.
Ventajas de la Prueba de Kruskal-Wallis
- No requiere normalidad: Funciona bien con datos no normales o con distribuciones sesgadas.
- Robustez: Es más resistente a valores atípicos.
- Fácil de interpretar: Basada en rangos, proporciona un enfoque claro para evaluar diferencias.
Limitaciones
- Supone distribuciones similares: Si las formas de las distribuciones entre grupos son diferentes, los resultados pueden ser engañosos.
- No identifica grupos específicos: Deben realizarse pruebas post-hoc para detectar qué grupos difieren.
- Menor potencia: Tiene menor potencia que las pruebas paramétricas cuando los datos cumplen los supuestos de normalidad.
Conclusión
La prueba de Kruskal-Wallis es una extensión poderosa de la prueba de Mann-Whitney para comparar más de dos grupos. Ofrece una alternativa robusta a la ANOVA cuando los datos no cumplen los supuestos paramétricos. Sin embargo, es esencial complementarla con pruebas post-hoc para obtener un análisis detallado.