Supuestos Paramétricos y su Influencia en la Elección de ANOVA o Kruskal-Wallis

La elección entre pruebas paramétricas (como ANOVA) y no paramétricas (como Kruskal-Wallis) depende de los supuestos paramétricos. Estos supuestos son condiciones sobre los datos que deben cumplirse para que las pruebas paramétricas sean válidas.


¿Qué son los supuestos paramétricos?

Las pruebas paramétricas (como ANOVA) trabajan con datos numéricos bajo ciertos supuestos. Los más importantes son:

  1. Normalidad:
    • Los datos dentro de cada grupo deben seguir una distribución normal.
    • Se evalúa con pruebas como Shapiro-Wilk o gráficamente con histogramas o gráficos Q-Q.
    • Ejemplo: En un conjunto de datos sobre alturas, las alturas de hombres y mujeres dentro de cada grupo deberían distribuirse de manera aproximadamente simétrica.
  2. Homogeneidad de varianzas:
    • Las varianzas de los grupos deben ser similares.
    • Se evalúa con la prueba de Levene o Bartlett.
    • Ejemplo: Si comparas la longitud de flores entre tres especies, la variabilidad de las longitudes dentro de cada especie debería ser similar.
  3. Independencia de las observaciones:
    • Las observaciones deben ser independientes entre sí, lo que significa que el valor de una observación no debe influir en las demás.
    • Ejemplo: No puedes medir varias veces la misma persona y tratar cada medición como independiente.

¿Qué pasa si no se cumplen los supuestos?

Cuando no se cumplen estos supuestos:

  1. Las pruebas paramétricas pueden producir resultados incorrectos, como un aumento del error tipo I (rechazar una hipótesis nula verdadera).
  2. En estos casos, utilizamos pruebas no paramétricas, como Kruskal-Wallis, que no requieren normalidad ni homogeneidad de varianzas.

ANOVA y el uso de medias

La ANOVA (Análisis de Varianza) es una prueba paramétrica que compara las medias entre varios grupos para determinar si al menos una media difiere significativamente de las demás. La ANOVA utiliza la media porque:

  1. La media es un buen estimador central cuando los datos son normales.
  2. Supone que la variabilidad dentro de los grupos es aproximadamente igual.

Si los datos no cumplen con los supuestos (for example, no son normales o las varianzas no son homogéneas), la media puede ser engañosa porque está influenciada por valores extremos (outliers).


Kruskal-Wallis y el uso de rangos

La prueba de Kruskal-Wallis, en cambio, es una prueba no paramétrica que utiliza rangos en lugar de medias. Esto la hace más robusta frente a datos no normales o con varianzas desiguales.

¿Qué son los rangos?

Los rangos son posiciones relativas de los valores dentro de un conjunto de datos ordenado de menor a mayor:

  • El valor más bajo recibe el rango 1, el siguiente rango 2, y así sucesivamente.
  • Si hay valores iguales, reciben el promedio de los rangos correspondientes.

Ejemplo: Supongamos que tienes los datos: 5, 10, 15, 15, 20.

  • El valor 5 recibe el rango 1.
  • El valor 10 recibe el rango 2.
  • Los valores 15 (iguales) reciben el promedio de los rangos 3 Y 4, es decir, 3.5 cada uno.
  • El valor 20 recibe el rango 5.

¿Por qué usar rangos en lugar de medias?

  1. Resiliencia a datos no normales:
    • Los rangos no dependen de la distribución de los datos.
    • Funcionan bien con distribuciones sesgadas o con outliers.
  2. Robustez frente a valores extremos:
    • Los rangos no son influenciados por valores atípicos, a diferencia de la media.
  3. Comparación de distribuciones:
    • Kruskal-Wallis no compara directamente las medias, sino las distribuciones de los datos. Evalúa si los rangos promedio difieren entre los grupos.

Comparación entre ANOVA y Kruskal-Wallis

CaracterísticaANOVAKruskal-Wallis
Tipo de pruebaParamétricaNo paramétrica
Variable centralMediaRangos
Supuesto de normalidadRequiere datos normalesNo requiere normalidad
Supuesto de homogeneidadRequiere varianzas homogéneasNo requiere homogeneidad de varianzas
Robustez frente a outliersSensible a valores extremosResistente a valores extremos
PotenciaMayor cuando los datos cumplen los supuestosMenor potencia en datos normales

Ejemplo práctico en R

Supongamos que queremos comparar la longitud del sépalo (Sepal.Length) entre las tres especies del conjunto de datos iris.

Comprobación de supuestos para ANOVA:

  1. Normalidad: by(iris$Sepal.Length, iris$Species, shapiro.test)
  2. Homogeneidad de varianzas: library(car) leveneTest(Sepal.Length ~ Species, data = iris)

Si alguno de estos supuestos no se cumple, usamos Kruskal-Wallis:

kruskal.test(Sepal.Length ~ Species, data = iris)

Conclusion

  1. ANOVA es la opción preferida cuando los datos cumplen los supuestos paramétricos, ya que tiene mayor potencia.
  2. Kruskal-Wallis es una alternativa robusta que usa rangos en lugar de medias, ideal para datos no normales o con varianzas desiguales.

Comprender los supuestos paramétricos y cómo los rangos actúan en las pruebas no paramétricas te permite seleccionar la herramienta estadística más adecuada para tus datos.

Leave a Comment

Your email address will not be published. Required fields are marked *