readr
Como ya mencionamos, readr se utiliza para leer y escribir datos en formato rectangular, como .csv y .tsv. Aquí hay algunas funciones útiles de readr:
read_csv()
: Esta función se utiliza para leer archivos .csv. Es muy rápida y eficiente, y puede manejar archivos muy grandes. For example, si quisieras leer un archivo llamadodata.csv
, puedes usar la siguiente sintaxis:
library(readr) data <- read_csv("data.csv")
read_tsv()
: Esta función se utiliza para leer archivos .tsv. Es similar aread_csv()
, pero está diseñada específicamente para manejar archivos .tsv. For example, si quisieras leer un archivo llamadodata.tsv
, puedes usar la siguiente sintaxis:
library(readr) data <- read_tsv("data.tsv")
write_csv()
: Esta función sirve para escribir un tibble en un archivo .csv. For example, para escribir un tibble llamadodata
en un archivo llamadodata_output.csv
, usaríamos la siguiente sintaxis:
library(readr) write_csv(data, "data_output.csv")
read_delim()
: Esta función se utiliza para leer archivos de texto delimitados por un separador personalizado. For example, para leer un archivo llamadodata.txt
que está delimitado por|
, escribiríamos:
library(readr) data <- read_delim("data.txt", delim = "|")
read_excel()
: se utiliza para leer archivos de Excel. Es muy útil si tienes que trabajar con archivos de Excel en R. For example, si quisieras leer una hoja llamadaSheet1
en un archivo llamadodata.xlsx
, deberías usar la siguiente sintaxis:
library(readr) data <- read_excel("data.xlsx", sheet = "Sheet1")
read_lines()
: Esta función se utiliza para leer líneas de texto de un archivo. Es muy útil si tienes que trabajar con archivos de texto muy grandes. For example, para leer las primeras 10 líneas de un archivo llamadodata.txt
, simplemente escribimos:
library(readr) data <- read_lines("data.txt", n_max = 10)
dplyr
Como ya mencionamos, dplyr es quizás la librería más importante de tidyverse, ya que proporciona una gramática clara y fácil de entender para la manipulación de datos. Algunas funciones útiles de dplyr son:
filter()
: Esta función se utiliza para filtrar filas de un tibble en función de ciertos criterios. For example, si quisieras filtrar las filas de un tibble llamadodata
donde la variableage
es mayor que 30 y la variablegender
es femenina, deberías usar la siguiente sintaxis:
library(dplyr) filtered_data <- filter(data, age > 30, gender == "female")
select()
: se utiliza para seleccionar columnas de un tibble. For example, si quisieras seleccionar las columnasage
,gender
Yincome
de un tibble llamadodata
, deberías escribir:
library(dplyr) selected_data <- select(data, age, gender, income)
mutate()
: mutate se utiliza para agregar nuevas variables calculadas a un tibble. For example, si quisieras agregar una nueva variable llamadaage_squared
a un tibble llamadodata
, que es igual al cuadrado de la variableage
, podrías usar la siguiente sintaxis:
library(dplyr) mutated_data <- mutate(data, age_squared = age^2)
arrange()
: Esta función sirve para ordenar las filas de un tibble en función de una o más variables. For example, para ordenar un tibble llamadodata
en función de la variableage
de forma ascendente,escribiríamos:
library(dplyr) arranged_data <- arrange(data, age)
group_by()
: sirve para agrupar las filas de un tibble en función de una o más variables. Es muy útil para realizar cálculos y resúmenes por grupo. For example, para agrupar un tibble llamadodata
por la variablegender
y luego calcular la media de la variableincome
para cada grupo, we wrote:
library(dplyr)
grouped_data <- group_by(data, gender)
summary_data <- summarise(grouped_data, mean_income = mean(income))
summarise()
: Esta función se utiliza para resumir los datos de un tibble en función de una o más variables. Es muy útil para calcular estadísticas resumen, como la media, la mediana y la desviación estándar. Para calcular la media y la mediana de la variableage
en un tibble llamadodata
, la sintaxis sería:
library(dplyr) summary_data <- summarise(data, mean_age = mean(age), median_age = median(age))