El paquete Tidyverse (II): readr y dplyr

readr

Como ya mencionamos, readr se utiliza para leer y escribir datos en formato rectangular, como .csv y .tsv. Aquí hay algunas funciones útiles de readr:

  1. read_csv(): Esta función se utiliza para leer archivos .csv. Es muy rápida y eficiente, y puede manejar archivos muy grandes. Por ejemplo, si quisieras leer un archivo llamado data.csv, puedes usar la siguiente sintaxis:
    library(readr)

    data <- read_csv("data.csv")
  1. read_tsv(): Esta función se utiliza para leer archivos .tsv. Es similar a read_csv(), pero está diseñada específicamente para manejar archivos .tsv. Por ejemplo, si quisieras leer un archivo llamado data.tsv, puedes usar la siguiente sintaxis:
    library(readr)

    data <- read_tsv("data.tsv")
  1. write_csv(): Esta función sirve para escribir un tibble en un archivo .csv. Por ejemplo, para escribir un tibble llamado data en un archivo llamado data_output.csv, usaríamos la siguiente sintaxis:
     library(readr)

     write_csv(data, "data_output.csv")
  1. read_delim(): Esta función se utiliza para leer archivos de texto delimitados por un separador personalizado. Por ejemplo, para leer un archivo llamado data.txt que está delimitado por |, escribiríamos:
     library(readr)

     data <- read_delim("data.txt", delim = "|")
  1. read_excel(): se utiliza para leer archivos de Excel. Es muy útil si tienes que trabajar con archivos de Excel en R. Por ejemplo, si quisieras leer una hoja llamada Sheet1 en un archivo llamado data.xlsx, deberías usar la siguiente sintaxis:
    library(readr)

    data <- read_excel("data.xlsx", sheet = "Sheet1")
  1. read_lines(): Esta función se utiliza para leer líneas de texto de un archivo. Es muy útil si tienes que trabajar con archivos de texto muy grandes. Por ejemplo, para leer las primeras 10 líneas de un archivo llamado data.txt, simplemente escribimos:
    library(readr)

    data <- read_lines("data.txt", n_max = 10)

dplyr

Como ya mencionamos, dplyr es quizás la librería más importante de tidyverse, ya que proporciona una gramática clara y fácil de entender para la manipulación de datos. Algunas funciones útiles de dplyr son:

  1. filter(): Esta función se utiliza para filtrar filas de un tibble en función de ciertos criterios. Por ejemplo, si quisieras filtrar las filas de un tibble llamado data donde la variable age es mayor que 30 y la variable gender es femenina, deberías usar la siguiente sintaxis:
    library(dplyr)

    filtered_data <- filter(data, age > 30, gender == "female")
  1. select(): se utiliza para seleccionar columnas de un tibble. Por ejemplo, si quisieras seleccionar las columnas age, gender y income de un tibble llamado data, deberías escribir:
   library(dplyr)

   selected_data <- select(data, age, gender, income)
  1. mutate(): mutate se utiliza para agregar nuevas variables calculadas a un tibble. Por ejemplo, si quisieras agregar una nueva variable llamada age_squared a un tibble llamado data, que es igual al cuadrado de la variable age, podrías usar la siguiente sintaxis:
    library(dplyr)
  
    mutated_data <- mutate(data, age_squared = age^2)
  1. arrange(): Esta función sirve para ordenar las filas de un tibble en función de una o más variables. Por ejemplo, para ordenar un tibble llamado data en función de la variable age de forma ascendente,escribiríamos:
    library(dplyr)

    arranged_data <- arrange(data, age)
  1. group_by(): sirve para agrupar las filas de un tibble en función de una o más variables. Es muy útil para realizar cálculos y resúmenes por grupo. Por ejemplo, para agrupar un tibble llamado data por la variable gender y luego calcular la media de la variable income para cada grupo, escribimos:
     library(dplyr)

     grouped_data <- group_by(data, gender)
     summary_data <- summarise(grouped_data, mean_income = mean(income))
  1. summarise(): Esta función se utiliza para resumir los datos de un tibble en función de una o más variables. Es muy útil para calcular estadísticas resumen, como la media, la mediana y la desviación estándar. Para calcular la media y la mediana de la variable age en un tibble llamado data, la sintaxis sería:
     library(dplyr)

     summary_data <- summarise(data, mean_age = mean(age), median_age = median(age))

Deja un comentario

Tu dirección de correo electrónico no será publicada.