05B - Manejo avanzado de datos (ejercicio)

Como al principio de todo script, recomiendo reiniciar R. Esto lo conseguimos en RStudio Cloud con Session > Restart R y clickeando en la escoba del panel de “Environment” (superior derecho).

library(tidyverse)

En el ejercicio trabajaremos con un panel de datos de países latinoamericanos en este milenio. Tenemos información sobre gasto en burocracia y pobreza; buscaremos responder a las preguntas (c) y (d).

Los siguientes son los datos de gasto en burocracia, 2000-2017, que tienen por fuente el Banco Mundial (2017), compilados por Our World in Data:

# (este no es el formato original de OWID, aunque se parece bastante)

df_gasto_burocracia <- read_csv("datos/gasto_burocracia.csv")
## Parsed with column specification:
## cols(
##   PAÍS = col_character(),
##   AÑO = col_double(),
##   `% DE BUROCRACIA EN GASTO FISCAL` = col_double()
## )
df_gasto_burocracia
## # A tibble: 216 x 3
##    PAÍS        AÑO `% DE BUROCRACIA EN GASTO FISCAL`
##    <chr>     <dbl>                             <dbl>
##  1 Argentina  2000                              14.7
##  2 Argentina  2001                              14.2
##  3 Argentina  2002                              11.3
##  4 Argentina  2003                              11.7
##  5 Argentina  2004                              11.5
##  6 Argentina  2005                              NA  
##  7 Argentina  2006                              NA  
##  8 Argentina  2007                              NA  
##  9 Argentina  2008                              NA  
## 10 Argentina  2009                              NA  
## # ... with 206 more rows

Estos son los datos de (extrema) pobreza, 2001-2017, medida como el porcentaje de la población que vive con menos de USD 1.90 al día (Banco Mundial, 2019):

# (este no es el formato original del Banco Mundial, aunque se parece bastante)
df_pobreza <- read_csv("datos/pobreza.csv")
## Parsed with column specification:
## cols(
##   country = col_character(),
##   `2001` = col_double(),
##   `2002` = col_double(),
##   `2003` = col_double(),
##   `2004` = col_double(),
##   `2005` = col_double(),
##   `2006` = col_double(),
##   `2007` = col_double(),
##   `2008` = col_double(),
##   `2009` = col_double(),
##   `2010` = col_double(),
##   `2011` = col_double(),
##   `2012` = col_double(),
##   `2013` = col_double(),
##   `2014` = col_double(),
##   `2015` = col_double(),
##   `2016` = col_double(),
##   `2017` = col_double()
## )
df_pobreza
## # A tibble: 12 x 18
##    country   `2001` `2002` `2003` `2004` `2005` `2006` `2007` `2008` `2009` `2010` `2011` `2012` `2013` `2014` `2015` `2016` `2017`
##    <chr>      <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
##  1 Argentina    9.4   14      7      5.4    3.9    3.3    2.9    2.6    2.6    1.1    0.9    0.8    0.8    0.7   NA      0.6    0.4
##  2 Bolivia     22.8   24.7   NA     13.7   19.3   16.4   12.4   11.1   10.5   NA      7.3    8.2    6.9    5.8    6.4    7.1    5.8
##  3 Brazil      11.6   10.3   11.1    9.7    8.6    7.2    6.8    5.6    5.4   NA      4.7    3.8    3.8    2.8    3.4    4.3    4.8
##  4 Chile       NA     NA      4.2   NA     NA      2.4   NA     NA      2.6   NA      1.6   NA      0.9   NA      1.3   NA      0.7
##  5 Colombia    19.7   14.3   12     10.9    9.7   NA     NA     10.4    8.9    7.7    6.3    6.2    5.7    5      4.5    4.5    3.9
##  6 Ecuador     NA     NA     14.5   15     12.1    8.1    8.5    7.5    7.2    5.6    4.7    4.5    3.2    2.6    3.4    3.6    3.2
##  7 Guyana      NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA  
##  8 Peru        17.2   15     11.7   13.5   15.3   13.3   11      9      7      5.5    5.2    4.7    4.3    3.7    3.6    3.5    3.4
##  9 Paraguay     8.9   13.2    8.3    5.7    6.1    7.9    7.8    4.3    5.8    5.5    5      3.3    1.8    2.4    1.9    1.7    1.2
## 10 Suriname    NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA  
## 11 Uruguay     NA     NA     NA     NA     NA      0.5    0.3    0.2    0.2    0.1    0.1    0.1    0.2    0.1    0.1    0.1    0.1
## 12 Venezuela   11     18.2   22.7   19.8   18.9   10.2   NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA
    1. ¿Qué necesitamos hacer con nuestros datos para poder contestar las preguntas C) y D)? A continuación, enumera las distintas modificaciones que debemos hacer para limpiar los datos, tomando en cuenta los contenidos de esta unidad.
    • Modificación A

    • Modificación B

    • Etc.

    1. Ejecuta el plan de modificación/limpieza de A).
    1. Para Latinoamérica en su conjunto, ¿cómo ha evolucionado en el tiempo la media del % de gasto fiscal invertido en burocracia? C1) Genera un gráfico con dicha evolución. C2) Encuentra los valores promedios antes y después de la crisis del 2008 (te ayudará crear una variable dummy/binaria a partir de los años).
    1. A nivel latinoamericano, ¿existe una relación entre pobreza y % de gasto fiscal invertido en burocracia? Genera un gráfico para responder esta pregunta. Para cada país, utiliza el año más reciente en el que hay datos para ambas variables.