05B - Manejo avanzado de datos (ejercicio)
Como al principio de todo script, recomiendo reiniciar R. Esto lo conseguimos en RStudio Cloud con Session > Restart R y clickeando en la escoba del panel de “Environment” (superior derecho).
En el ejercicio trabajaremos con un panel de datos de países latinoamericanos en este milenio. Tenemos información sobre gasto en burocracia y pobreza; buscaremos responder a las preguntas (c) y (d).
Los siguientes son los datos de gasto en burocracia, 2000-2017, que tienen por fuente el Banco Mundial (2017), compilados por Our World in Data:
# (este no es el formato original de OWID, aunque se parece bastante)
df_gasto_burocracia <- read_csv("datos/gasto_burocracia.csv")
## Parsed with column specification:
## cols(
## PAÍS = col_character(),
## AÑO = col_double(),
## `% DE BUROCRACIA EN GASTO FISCAL` = col_double()
## )
## # A tibble: 216 x 3
## PAÍS AÑO `% DE BUROCRACIA EN GASTO FISCAL`
## <chr> <dbl> <dbl>
## 1 Argentina 2000 14.7
## 2 Argentina 2001 14.2
## 3 Argentina 2002 11.3
## 4 Argentina 2003 11.7
## 5 Argentina 2004 11.5
## 6 Argentina 2005 NA
## 7 Argentina 2006 NA
## 8 Argentina 2007 NA
## 9 Argentina 2008 NA
## 10 Argentina 2009 NA
## # ... with 206 more rows
Estos son los datos de (extrema) pobreza, 2001-2017, medida como el porcentaje de la población que vive con menos de USD 1.90 al día (Banco Mundial, 2019):
# (este no es el formato original del Banco Mundial, aunque se parece bastante)
df_pobreza <- read_csv("datos/pobreza.csv")
## Parsed with column specification:
## cols(
## country = col_character(),
## `2001` = col_double(),
## `2002` = col_double(),
## `2003` = col_double(),
## `2004` = col_double(),
## `2005` = col_double(),
## `2006` = col_double(),
## `2007` = col_double(),
## `2008` = col_double(),
## `2009` = col_double(),
## `2010` = col_double(),
## `2011` = col_double(),
## `2012` = col_double(),
## `2013` = col_double(),
## `2014` = col_double(),
## `2015` = col_double(),
## `2016` = col_double(),
## `2017` = col_double()
## )
## # A tibble: 12 x 18
## country `2001` `2002` `2003` `2004` `2005` `2006` `2007` `2008` `2009` `2010` `2011` `2012` `2013` `2014` `2015` `2016` `2017`
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Argentina 9.4 14 7 5.4 3.9 3.3 2.9 2.6 2.6 1.1 0.9 0.8 0.8 0.7 NA 0.6 0.4
## 2 Bolivia 22.8 24.7 NA 13.7 19.3 16.4 12.4 11.1 10.5 NA 7.3 8.2 6.9 5.8 6.4 7.1 5.8
## 3 Brazil 11.6 10.3 11.1 9.7 8.6 7.2 6.8 5.6 5.4 NA 4.7 3.8 3.8 2.8 3.4 4.3 4.8
## 4 Chile NA NA 4.2 NA NA 2.4 NA NA 2.6 NA 1.6 NA 0.9 NA 1.3 NA 0.7
## 5 Colombia 19.7 14.3 12 10.9 9.7 NA NA 10.4 8.9 7.7 6.3 6.2 5.7 5 4.5 4.5 3.9
## 6 Ecuador NA NA 14.5 15 12.1 8.1 8.5 7.5 7.2 5.6 4.7 4.5 3.2 2.6 3.4 3.6 3.2
## 7 Guyana NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 Peru 17.2 15 11.7 13.5 15.3 13.3 11 9 7 5.5 5.2 4.7 4.3 3.7 3.6 3.5 3.4
## 9 Paraguay 8.9 13.2 8.3 5.7 6.1 7.9 7.8 4.3 5.8 5.5 5 3.3 1.8 2.4 1.9 1.7 1.2
## 10 Suriname NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 11 Uruguay NA NA NA NA NA 0.5 0.3 0.2 0.2 0.1 0.1 0.1 0.2 0.1 0.1 0.1 0.1
## 12 Venezuela 11 18.2 22.7 19.8 18.9 10.2 NA NA NA NA NA NA NA NA NA NA NA
- ¿Qué necesitamos hacer con nuestros datos para poder contestar las preguntas C) y D)? A continuación, enumera las distintas modificaciones que debemos hacer para limpiar los datos, tomando en cuenta los contenidos de esta unidad.
Modificación A
Modificación B
Etc.
- Ejecuta el plan de modificación/limpieza de A).
- Para Latinoamérica en su conjunto, ¿cómo ha evolucionado en el tiempo la media del % de gasto fiscal invertido en burocracia? C1) Genera un gráfico con dicha evolución. C2) Encuentra los valores promedios antes y después de la crisis del 2008 (te ayudará crear una variable dummy/binaria a partir de los años).
- A nivel latinoamericano, ¿existe una relación entre pobreza y % de gasto fiscal invertido en burocracia? Genera un gráfico para responder esta pregunta. Para cada país, utiliza el año más reciente en el que hay datos para ambas variables.