4  Pre-procesamiento de los datos

En esta sección llevaremos a cabo la manipulación y limpieza de los datos que utilizaremos en los ejercicios posteriores.

Cargar paquetes en R

Code
library(tidyverse) # Manipulacion, limpieza y visualizacion de datos
library(gapminder) # Base de datos
library(DT)        # Tablas bonitas
library(gtsummary) # install.packages("gtsummary")

4.1 Selección de datos

Nos gustaría conocer la información relacionada con la esperanza de vida (lifeExp), la población total del país (pop) y el producto interno bruto per cápita (gdpPercap) de los países involucrados en el Proyecto JAGUAR durante el año 2007, utilizando el conjunto de datos gapminder disponible a través del paquete gapminder en R.

Code
# Paises involucrados con el proyecto JAGUAR
JAGUAR_paises <-  c("Argentina", "Brazil", "Colombia", "Chile", "Mexico", "Peru", "Uruguay")

# Seleccionar la informacion relacionada con los paises del proyecto JAGUAR durante todos los years registrados
JAGUAR_gapminder <- gapminder::gapminder %>% 
  # janitor::clean_names() %>% # para limpiar y estandarizar los nombres de columnas de un data frame
  mutate(
    # Convertir paises de factor a caracter para tener capas independientes por paises en la figura interactiva
    id = levels(country)[as.numeric(country)],
    country = forcats::fct_reorder(country, lifeExp)) %>% 
  filter(continent == "Americas") %>%
  filter(country %in% JAGUAR_paises) %>% # seleccionar paises
  droplevels()  # eliminar niveles de factor no utilizados

Revisar informacion

Code
# Visualizar informacion en una tabla bonita
JAGUAR_gapminder %>%
  DT::datatable()

Guardar la variable

Code
# crear una carpeta para la salida
# Eliminar si existe
if (dir.exists("data")) {
  unlink("data", recursive = TRUE)
}

# Crear el nuevo directorio
dir.create("data")

# Guardar la variable
save(JAGUAR_gapminder, file = "data/JAGUAR_gapminder.RData")

4.2 Estadística descriptiva de los datos

Obtener un resumen descriptivo de la esperanza de vida media en los países seleccionados.

Code
JAGUAR_gapminder %>%
  select(-continent, -id, -year) %>% 
  # Estadistica descriptiva en la tabla
  tbl_summary(
    by = country, 
    statistic = list(all_continuous() ~ "{mean} ({sd})", 
                     all_categorical() ~ "{n} / {N} ({p}%)"),
    digits = all_continuous() ~ 2) %>% 
  # Nombre del titulo de la tabla
  modify_caption("Caracteristicas de los paises (N = {N})") %>%
  as_gt()
Caracteristicas de los paises (N = 84)
Characteristic Peru
N = 12
1
Brazil
N = 12
1
Colombia
N = 12
1
Mexico
N = 12
1
Chile
N = 12
1
Argentina
N = 12
1
Uruguay
N = 12
1
lifeExp 58.86 (9.57) 62.24 (7.04) 63.90 (6.98) 65.41 (8.19) 67.43 (8.67) 69.06 (4.19) 70.78 (3.34)
pop 17,559,093.00 (7,053,307.63) 122,312,126.67 (45,747,618.44) 27,256,099.58 (10,535,047.08) 68,414,297.42 (26,954,820.63) 11,205,725.33 (3,333,125.57) 28,602,239.92 (7,546,608.99) 2,912,487.17 (368,526.99)
gdpPercap 5,613.84 (1,056.66) 5,829.32 (2,436.45) 4,195.34 (1,652.93) 7,724.11 (2,770.81) 6,703.29 (3,026.19) 8,955.55 (1,862.58) 7,100.13 (1,612.26)
1 Mean (SD)

4.3 Referencias