El paquete Tidyverse (II): readr y dplyr

readr

Como ya mencionamos, readr se utiliza para leer y escribir datos en formato rectangular, como .csv y .tsv. Aquí hay algunas funciones útiles de readr:

read_csv(): Esta función se utiliza para leer archivos .csv. Es muy rápida y eficiente, y puede manejar archivos muy grandes. For example, si quisieras leer un archivo llamado data.csv, puedes usar la siguiente sintaxis:

    library(readr)

    data <- read_csv("data.csv")

read_tsv(): Esta función se utiliza para leer archivos .tsv. Es similar a read_csv(), pero está diseñada específicamente para manejar archivos .tsv. For example, si quisieras leer un archivo llamado data.tsv, puedes usar la siguiente sintaxis:

    library(readr)

    data <- read_tsv("data.tsv")

write_csv(): Esta función sirve para escribir un tibble en un archivo .csv. For example, para escribir un tibble llamado data en un archivo llamado data_output.csv, usaríamos la siguiente sintaxis:

     library(readr)

     write_csv(data, "data_output.csv")

read_delim(): Esta función se utiliza para leer archivos de texto delimitados por un separador personalizado. For example, para leer un archivo llamado data.txt que está delimitado por |, escribiríamos:

     library(readr)

     data <- read_delim("data.txt", delim = "|")

read_excel(): se utiliza para leer archivos de Excel. Es muy útil si tienes que trabajar con archivos de Excel en R. For example, si quisieras leer una hoja llamada Sheet1 en un archivo llamado data.xlsx, deberías usar la siguiente sintaxis:

    library(readr)

    data <- read_excel("data.xlsx", sheet = "Sheet1")

read_lines(): Esta función se utiliza para leer líneas de texto de un archivo. Es muy útil si tienes que trabajar con archivos de texto muy grandes. For example, para leer las primeras 10 líneas de un archivo llamado data.txt, simplemente escribimos:

    library(readr)

    data <- read_lines("data.txt", n_max = 10)

dplyr

Como ya mencionamos, dplyr es quizás la librería más importante de tidyverse, ya que proporciona una gramática clara y fácil de entender para la manipulación de datos. Algunas funciones útiles de dplyr son:

filter(): Esta función se utiliza para filtrar filas de un tibble en función de ciertos criterios. For example, si quisieras filtrar las filas de un tibble llamado data donde la variable age es mayor que 30 y la variable gender es femenina, deberías usar la siguiente sintaxis:

    library(dplyr)

    filtered_data <- filter(data, age > 30, gender == "female")

select(): se utiliza para seleccionar columnas de un tibble. For example, si quisieras seleccionar las columnas age, gender Y income de un tibble llamado data, deberías escribir:

   library(dplyr)

   selected_data <- select(data, age, gender, income)

mutate(): mutate se utiliza para agregar nuevas variables calculadas a un tibble. For example, si quisieras agregar una nueva variable llamada age_squared a un tibble llamado data, que es igual al cuadrado de la variable age, podrías usar la siguiente sintaxis:

    library(dplyr)
  
    mutated_data <- mutate(data, age_squared = age^2)

arrange(): Esta función sirve para ordenar las filas de un tibble en función de una o más variables. For example, para ordenar un tibble llamado data en función de la variable age de forma ascendente,escribiríamos:

    library(dplyr)

    arranged_data <- arrange(data, age)

group_by(): sirve para agrupar las filas de un tibble en función de una o más variables. Es muy útil para realizar cálculos y resúmenes por grupo. For example, para agrupar un tibble llamado data por la variable gender y luego calcular la media de la variable income para cada grupo, we wrote:

     library(dplyr)

     grouped_data <- group_by(data, gender)
     summary_data <- summarise(grouped_data, mean_income = mean(income))

summarise(): Esta función se utiliza para resumir los datos de un tibble en función de una o más variables. Es muy útil para calcular estadísticas resumen, como la media, la mediana y la desviación estándar. Para calcular la media y la mediana de la variable age en un tibble llamado data, la sintaxis sería:

     library(dplyr)

     summary_data <- summarise(data, mean_age = mean(age), median_age = median(age))

readr

dplyr

Leave a Comment Cancel reply