Estadística con R (I). El análisis exploratorio de datos.

El conjunto de datos Iris, frecuentemente utilizado en estadística, es ideal para aprender sobre análisis exploratorio de datos (EDA) en R. Este conjunto contiene medidas de las características de flores Iris de tres especies diferentes. Hoy, nos sumergiremos en este mundo florido para descubrir patrones y relaciones utilizando R.

1. Primer Vistazo a los Datos: Primero, cargamos el conjunto de datos:

>data(iris)

Utilizamos summary(iris) y str(iris) para obtener una visión general de los datos, que incluyen medidas de longitud y anchura de sépalos y pétalos, así como la especie de la flor.

library(ggplot2)
ggplot(iris, aes(x = Sepal.Length)) + geom_histogram(bins = 30)

2. Visualización Básica con ggplot2: Creamos histogramas para cada característica, lo que nos permite ver la distribución de estas medidas:

Repetimos esto para Sepal.Width, Petal.Length, y Petal.Width.

> ggplot(iris, aes(x = Sepal.Width)) + geom_histogram(bins = 30)

> ggplot(iris, aes(x = Petal.Width)) + geom_histogram(bins = 30)


> ggplot(iris, aes(x = Petal.Length)) + geom_histogram(bins = 30)

3. Exploración de Relaciones: Ahora, examinamos cómo se relacionan estas características entre sí. Un gráfico de dispersión es perfecto para esto:

ggplot(iris, aes(x = Sepal.Length, y = Petal.Length, color = Species)) + geom_point()

Esto nos muestra cómo las diferentes especies se diferencian en términos de longitud de sépalo y pétalo.

4. Análisis Multivariado: Utilizamos gráficos de pares para ver todas las relaciones posibles a la vez:

pairs(~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris, col = iris$Species)


5. Conclusiones: Este análisis nos revela cómo las medidas de las flores Iris varían entre especies y nos da una idea de la utilidad del EDA en R. Hemos visto cómo las herramientas visuales y estadísticas de R nos permiten explorar y entender conjuntos de datos complejos de manera intuitiva.


Deja un comentario

Tu dirección de correo electrónico no será publicada.