Statistics with R (II): Variance Analysis (ANOVA)


En la primera parte de esta serie, exploramos cómo realizar un análisis exploratorio de datos (EDA) con R utilizando el conjunto de datos iris. En esta segunda parte, profundizaremos en una técnica estadística fundamental: el Análisis de la Varianza, más conocido como ANOVA.

¿Qué es ANOVA?

ANOVA es un método que nos permite comparar las medias de múltiples grupos para determinar si existen diferencias significativas entre ellas. Es particularmente útil cuando se trabaja con más de dos grupos, ya que extiende el concepto de la prueba t de Student a múltiples comparaciones simultáneas.

Aplicando ANOVA en R

Continuando con el conjunto de datos iris, supongamos que queremos investigar si la longitud de los sépalos (Sepal.Length) difiere significativamente entre las tres especies de iris (setosa, versicolor, virginica). Podemos utilizar la función aov() de R para realizar esta prueba.

anova_result <- aov(Sepal.Length ~ Species, data = iris)
summary(anova_result)

             Df Sum Sq Mean Sq F value Pr(>F)    
Species       2  63.21  31.606   119.3 <2e-16 ***
Residuals   147  38.96   0.265                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

El resultado de esta función nos proporciona el valor del estadístico F y el valor p asociado, que nos indica si debemos rechazar la hipótesis nula de que todas las medias son iguales.

Interpretación de los Resultados

Si el valor p es menor que nuestro nivel de significancia (típicamente 0.05), podemos concluir que existen diferencias significativas en la longitud de los sépalos entre al menos dos especies. De lo contrario, no tendríamos suficiente evidencia para afirmar que las medias difieren.

En este caso el valor p es extremadamente bajo (<2e-16), lo que indica diferencias estadísticamente significativas entre las especies en cuanto a la longitud del sépalo.

Conclusión: Hay evidencia muy fuerte de que al menos una de las especies tiene una longitud de sépalo significativamente diferente de las demás.

Verificación de Supuestos

Es crucial saber que ANOVA asume que los datos son aproximadamente normales y que las varianzas de los grupos son homogéneas. Podemos verificar estos supuestos de la siguiente manera:

  1. Normalidad: con la prueba de Shapiro-Wilk. shapiro.test(residuals(anova_result))
  2. Homogeneidad de varianzas: Aplicamos la prueba de Levene, para lo que necesitaremos la librería car.
    leveneTest(Sepal.Length ~ Species, data = iris)

Si alguno de estos supuestos no se cumple, podríamos considerar transformaciones de los datos o usar métodos alternativos, como ANOVA de Welch.

Veamos que valores obtenemos

> shapiro.test(residuals(anova_result))

Shapiro-Wilk normality test

data:  residuals(anova_result)
W = 0.9879, p-value = 0.2189


Siendo la hipótesis nula que la población está distribuida normalmente, si el p-valor es menor a alfa (nivel de significancia) entonces la hipótesis nula es rechazada (se concluye que los datos no vienen de una distribución normal). Como en este caso es mayor (0,2189>0,05), concluímos que los datos siguen una distribución normal.

W = 0.9879: Este valor está cercano a 1, lo que indica que los residuos están bastante cerca de seguir una distribución normal.

> library(car)
Loading required package: carData
Warning messages:
1: package ‘car’ was built under R version 4.3.2 
2: package ‘carData’ was built under R version 4.3.2 
> leveneTest(Sepal.Length ~ Species, data = iris)
Levene's Test for Homogeneity of Variance (center = median)
       Df F value   Pr(>F)   
group   2  6.3527 0.002259 **
      147                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

El resultado de la prueba de Levene indica lo siguiente:

  • p-value = 0.002259: Este valor es menor que 0.05, lo que significa que hay evidencia significativa para rechazar la hipótesis nula de que las varianzas son homogéneas entre las especies.
  • F value = 6.3527: Indica la magnitud de la diferencia entre las varianzas de los grupos.

Conclusión: Las varianzas no son homogéneas entre las especies de iris, lo que sugiere que el supuesto de homogeneidad de varianzas para la ANOVA clásica no se cumple. Esto indicaría que la ANOVA de Welch podría ser más adecuada en este caso.


Leave a Comment

Your email address will not be published.