El paquete Tidyverse (1)

Qué es tidyverse y para qué sirve

Tidyverse es un conjunto de paquetes de R que están diseñados para trabajar juntos y que facilitan la manipulación, visualización y modelización de datos. Tidyverse se enfoca en la limpieza y manipulación de datos, lo que significa que es una herramienta muy útil para cualquier persona que trabaje con datos.

Cada paquete de tidyverse tiene una función específica, pero todos están diseñados para trabajar juntos de forma coherente, con una sintaxis clara y fácil de aprender.

Librerías de tidyverse. Dataframes y tibbles.

Antes de comenzar a hablar de las librerías en sí, es importante entender la diferencia entre un data.frame y un tibble.

En R, un data.frame es una tabla que contiene filas y columnas, similar a una hoja de cálculo en Excel, y está disponible en cualquier instalación de R. Además de los datos que están en esas filas y columnas un data.frame tiene dos atributos (metadatos): los nombres de columna, que se consultan o modifican con colnames(df) y los nombres de filas, a los que accedemos con rownames(df).

Un tibble es un tipo especial de dataframe, contenido en el paquete tibble y que está diseñado para trabajar con tidyverse.

Aunque un tibble es una estructura de datos muy similar a un data.frame (rectangular, organizada en filas y columnas), tiene algunas diferencias respecto a un data.frame normal:

  • El método print de los data.frame y de los tibble es diferente. Por lo que al mostrarlos se ven resultados diferentes. Los tibble muestran información más relevante.
  • Aunque los tibble pueden utilizar rownames por defecto los eliminan.
  • Un conjunto de reglas más estrictas para evitar problemas de coerción de datos.

Por defecto la mayoría de las funciones del tidyverse crean objetos tibble, aunque siguen siendo compatibles con los data.frame dada la gran familiaridad entre unos y otros. En cualquier momento se puede pasar de tibble a data.frame con la función as.data.frame(), y de data.frame a tibble con as_tibble(), siendo muy aconsejable revisar lo que ocurre con los rownames().

El paquete Tidyverse se compone de las siguientes librerías:

  1. readr: Esta librería se utiliza para leer y escribir datos en formato rectangular, como .csv y .tsv. La función read_csv() es una de las más populares de esta librería, ya que es muy rápida y fácil de usar.
  2. dplyr: Quizás la librería más importante de tidyverse, ya que proporciona una gramática clara y fácil de entender para la manipulación de datos. dplyr se utiliza para filtrar, ordenar y resumir datos, y tiene una sintaxis muy fácil de leer y escribir.
  3. ggplot2: Ya hemos hablado extensamente de esta librería de visualización en entradas anteriores.
  4. tibble: Como ya hemos mencionado, tibble es un tipo especial de dataframe que está diseñado para trabajar con tidyverse. Esta librería proporciona una sintaxis más clara y coherente para trabajar con tibbles, y ofrece algunas funciones útiles para la manipulación de datos.
  5. tidyr: Esta librería se utiliza para limpiar y transformar datos en formatos largos y anchos. Las funciones gather() y spread() son muy populares en tidyr, ya que permiten convertir fácilmente entre formatos largos y anchos.
  6. purrr: Librería para trabajar con funciones, especialmente con funciones que toman argumentos complejos. purrr proporciona una sintaxis clara y concisa para trabajar con funciones en tidyverse.
  7. stringr: Esta librería se utiliza para trabajar con cadenas de texto. stringr proporciona funciones para buscar y reemplazar patrones de texto, manipular cadenas de texto y más.
  8. forcats: librería para trabajar con variables categóricas o de factor. forcats proporciona funciones para reordenar, renombrar y manipular variables categóricas, lo que es muy útil para la visualización de datos.

Para instalar tidyverse sólo debemos abrir Rstudio y ejecutar el siguiente comando:

install.packages(«tidyverse»)

Deja un comentario

Tu dirección de correo electrónico no será publicada.