1 Import, plot, sumarize and save data

Load the SPSS (*.sav) 2 datasets, generate summary statistics for all variables, plot some of the features (e.g., histograms, box plots, density plots, etc.) of several variables.

# install.packages("foreign")
library("foreign")
pathToZip <- tempfile() 
download.file("https://umich.instructure.com/files/8882923/download?download_frd=1", pathToZip, mode = "wb")
#dataset <- read.spss(unzip(pathToZip, files = "namcs2015-spss.sav", list = F, overwrite = TRUE), to.data.frame=TRUE)

# Check ZIP file content
unzip(pathToZip, list = T, overwrite = TRUE)
##                             Name  Length                Date
## 1                2009vitales.sav 5306437 2018-10-11 14:34:00
## 2                2016vitales.sav 9629442 2018-10-11 14:35:00
## 3 DataDictionary_Challenges.xlsx   11069 2018-10-11 14:34:00
# 2009
dataset_2009 <- read.spss(unzip(pathToZip, files = "2009vitales.sav", list = F, overwrite = TRUE), to.data.frame=TRUE)
dim(dataset_2009)
## [1] 71707    25
## 71707    25
# str(dataset_2009)
# View(dataset_2009)  
summary(dataset_2009)
##             Depreg                  Mupreg          Mesreg     
##  Guatemala     :21391   Guatemala      :16074   Julio  : 6553  
##  Quetzaltenango: 4465   Quetzaltenango : 1644   Enero  : 6382  
##  Alta Verapaz  : 4355   Escuintla      : 1498   Marzo  : 6293  
##  San Marcos    : 4351   Cobán          : 1100   Agosto : 6134  
##  Huehuetenango : 3908   Mixco          : 1045   Abril  : 6084  
##  Escuintla     : 3817   Mazatenango    :  929   Junio  : 5987  
##  (Other)       :29420   (Other)        :49417   (Other):34274  
##      Añoreg                  Depocu                  Mupocu     
##  Min.   : 9.000   Guatemala     :21388   Guatemala      :15470  
##  1st Qu.: 9.000   Quetzaltenango: 4465   Quetzaltenango : 1644  
##  Median : 9.000   Alta Verapaz  : 4354   Escuintla      : 1509  
##  Mean   : 9.016   San Marcos    : 4346   Mixco          : 1387  
##  3rd Qu.: 9.000   Huehuetenango : 3911   Cobán          : 1117  
##  Max.   :10.000   Escuintla     : 3820   Villa Nueva    :  943  
##                   (Other)       :29423   (Other)        :49637  
##       Areag           Sexo           Diaocu          Mesocu     
##  Urbano  :38610   Hombre:41354   Min.   : 1.00   Julio  : 6312  
##  Rural   :30859   Mujer :30353   1st Qu.: 8.00   Agosto : 6232  
##  Ignorado: 2238                  Median :16.00   Marzo  : 6145  
##                                  Mean   :15.63   Enero  : 6088  
##                                  3rd Qu.:23.00   Junio  : 6006  
##                                  Max.   :31.00   Mayo   : 5982  
##                                                  (Other):34942  
##      Añoocu      Edadif                  Perdif              Getdif     
##  Min.   :9   1      : 3509   Menos de un mes: 3168   No indigena:25251  
##  1st Qu.:9   2      : 1734   1 a 11 meses   : 4686   Indigena   :18612  
##  Median :9   81     : 1238   1 año y más    :63342   Ignorado   :27844  
##  Mean   :9   80     : 1220   Ignorado       :  511                      
##  3rd Qu.:9   78     : 1195                                              
##  Max.   :9   79     : 1183                                              
##              (Other):61628                                              
##       Ecidif                                       Ocudif     
##  Soltero :42692   Peones de explotaciones agrícolas   :19702  
##  Casado  :25833   Oficios domésticos no remunerados   :18851  
##  Unido   :  603   Infante (Sin ocupación)             :11829  
##  Ignorado: 2579   Estudiante                          : 5455  
##                   Ignorado                            : 3621  
##                   Limpiadores y asistentes domésticos : 1876  
##                   (Other)                             :10373  
##             Dnadif                  Mnadif     
##  Guatemala     :16176   Guatemala      : 8735  
##  Ignorado      : 5541   Ignorado       : 5858  
##  San Marcos    : 4405   Mixco          : 1649  
##  Escuintla     : 3834   Villa Nueva    : 1386  
##  Alta Verapaz  : 3693   Quetzaltenango :  907  
##  Quetzaltenango: 3658   Escuintla      :  904  
##  (Other)       :34400   (Other)        :52268  
##                          Nacdif                 Dredif     
##  Guatemalteco(a)            :70452   Guatemala     :16887  
##  Ignorado                   :  473   San Marcos    : 4787  
##  Extranjero(a)_duplicated_36:  260   Alta Verapaz  : 4240  
##  Extranjero(a)_duplicated_37:  138   Escuintla     : 3950  
##  Extranjero(a)_duplicated_38:   81   Huehuetenango : 3934  
##  Extranjero(a)_duplicated_32:   60   Quetzaltenango: 3921  
##  (Other)                    :  243   (Other)       :33988  
##              Mredif          Caudef            Asist      
##  Guatemala      : 9149   J189   : 4375   Médico   :30390  
##  Ignorado       : 1976   I219   : 3409   Comadrona:  232  
##  Mixco          : 1740   X599   : 2568   Empírica : 1907  
##  Villa Nueva    : 1434   A09X   : 2502   Ninguna  :38989  
##  Escuintla      :  979   J180   : 2456   Ignorado :  189  
##  Quetzaltenango :  942   X959   : 2376                    
##  (Other)        :55487   (Other):54021                    
##             Ocur             Cerdef     
##  Hospital     :19662   Médica   :50124  
##  Casa de salud:  386   Empírica : 7000  
##  Vía pública  : 6834   Autoridad:    0  
##  Domicilio    :44376   Ignorado :14583  
##  Ignorado     :  449                    
##                                         
## 
str(dataset_2009)
## 'data.frame':    71707 obs. of  25 variables:
##  $ Depreg: Factor w/ 22 levels "Guatemala","El Progreso",..: 5 1 22 2 1 5 1 1 5 5 ...
##  $ Mupreg: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 62 1 323 18 1 61 13 15 62 58 ...
##  $ Mesreg: Factor w/ 12 levels "Enero","Febrero",..: 1 9 9 12 5 10 11 1 4 1 ...
##  $ Añoreg: num  9 9 9 9 9 9 9 9 9 9 ...
##  $ Depocu: Factor w/ 22 levels "Guatemala","El Progreso",..: 5 1 22 2 1 5 1 1 5 5 ...
##  $ Mupocu: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 62 1 323 18 1 61 13 15 62 58 ...
##  $ Areag : Factor w/ 3 levels "Urbano","Rural",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Sexo  : Factor w/ 2 levels "Hombre","Mujer": 1 1 2 1 2 1 1 1 2 2 ...
##  $ Diaocu: num  2 27 23 5 7 18 10 12 11 1 ...
##  $ Mesocu: Factor w/ 12 levels "Enero","Febrero",..: 1 9 8 12 5 10 11 1 4 1 ...
##  $ Añoocu: num  9 9 9 9 9 9 9 9 9 9 ...
##  $ Edadif: Factor w/ 118 levels "0","1","10","100",..: 20 26 28 28 29 31 32 33 33 35 ...
##  $ Perdif: Factor w/ 4 levels "Menos de un mes",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Getdif: Factor w/ 3 levels "No indigena",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Ecidif: Factor w/ 4 levels "Soltero","Casado",..: 1 1 1 1 2 1 1 1 1 2 ...
##  $ Ocudif: Factor w/ 445 levels "Oficiales de las fuerzas armadas ",..: 441 441 441 445 441 441 441 441 441 440 ...
##  $ Dnadif: Factor w/ 24 levels "Guatemala","El Progreso",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mnadif: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Nacdif: Factor w/ 35 levels "Guatemalteco(a)",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Dredif: Factor w/ 24 levels "Guatemala","El Progreso",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mredif: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Caudef: Factor w/ 1662 levels "A009","A010",..: 1626 1558 1573 1380 1531 1510 1569 1573 1514 1514 ...
##  $ Asist : Factor w/ 5 levels "Médico","Comadrona",..: 1 4 4 4 4 4 4 4 4 4 ...
##  $ Ocur  : Factor w/ 5 levels "Hospital","Casa de salud",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Cerdef: Factor w/ 4 levels "Médica","Empírica",..: 1 1 2 1 1 1 1 1 1 1 ...
##  - attr(*, "variable.labels")= Named chr  "Departamento de registro" "Municipio de registro" "Mes de registro" "Año de registro" ...
##   ..- attr(*, "names")= chr  "Depreg" "Mupreg" "Mesreg" "Añoreg" ...
##  - attr(*, "codepage")= int 65001
# 2016
dataset_2016 <- read.spss(unzip(pathToZip, files = "2016vitales.sav", list = F, overwrite = TRUE), to.data.frame=TRUE)
dim(dataset_2016)    # 82565    28
## [1] 82565    28
summary(dataset_2016)
##             Depreg                 Mupreg          Mesreg     
##  Guatemala     :24357   Guatemala     :20579   Marzo  : 7346  
##  Alta Verapaz  : 5249   Quetzaltenango: 1788   Mayo   : 7271  
##  Quetzaltenango: 5016   Cobán         : 1376   Enero  : 7165  
##  San Marcos    : 4706   Escuintla     : 1072   Agosto : 7117  
##  Huehuetenango : 4679   Chiquimula    :  956   Febrero: 7104  
##  Escuintla     : 4665   Chimaltenango :  940   Abril  : 7056  
##  (Other)       :33893   (Other)       :55854   (Other):39506  
##      Añoreg                Depocu                 Mupocu     
##  Min.   :2016   Guatemala     :24273   Guatemala     :15800  
##  1st Qu.:2016   Alta Verapaz  : 5233   Mixco         : 2172  
##  Median :2016   Quetzaltenango: 5141   Escuintla     : 1972  
##  Mean   :2016   Escuintla     : 4737   Quetzaltenango: 1819  
##  3rd Qu.:2016   Huehuetenango : 4658   Villa Nueva   : 1373  
##  Max.   :2017   San Marcos    : 4573   Cobán         : 1337  
##                 (Other)       :33950   (Other)       :58092  
##       Areag             Sexo           Diaocu          Mesocu     
##  Urbano  :45978   Hombre  :46267   Min.   : 1.00   Marzo  : 7397  
##  Rural   :35292   Mujer   :36298   1st Qu.: 8.00   Mayo   : 7145  
##  Ignorado: 1295   Ignorado:    0   Median :16.00   Enero  : 7119  
##                                    Mean   :15.75   Julio  : 7046  
##                                    3rd Qu.:23.00   Abril  : 6984  
##                                    Max.   :31.00   Octubre: 6882  
##                                                    (Other):39992  
##      Añoocu         Edadif                  Perdif     
##  Min.   :2016   1      : 3338   Menos de un mes: 4203  
##  1st Qu.:2016   2      : 1628   1 a 11 meses   : 4163  
##  Median :2016   84     : 1441   1 año y má     :73734  
##  Mean   :2016   85     : 1429   Ignorado       :  465  
##  3rd Qu.:2016   80     : 1416                          
##  Max.   :2016   86     : 1358                          
##                 (Other):71955                          
##              Puedif             Ecidif               Escodif     
##  Maya           :23133   Soltero(a):53660   Ninguna      :45836  
##  Garífuna       :   46   Casado(a) :27523   Primaria     :22052  
##  Xinca          :   26   Unido(a)  :  808   Básico       : 3940  
##  Mestizo, Ladino:42165   Ignorado  :  574   Diversificado: 5221  
##  Otro           :  868                      Universitario: 1225  
##  Ignorado       :16327                      Post grado   :   35  
##                                             Ignorado     : 4256  
##                                                               Ciuodif     
##  No especificado en otro grupo                                    :41963  
##  Peones agropecuarios, pesqueros y forestales                     :19772  
##  Ignorado                                                         : 6149  
##  Vendedores                                                       : 3085  
##  Oficiales y operarios de la construcción excluyendo electricistas: 1796  
##  Conductores de vehículos y operadores de equipos pesados móviles : 1400  
##  (Other)                                                          : 8400  
##                        Pnadif                 Dnadif     
##  Guatemala                :81282   Guatemala     :13787  
##  Ignorado                 :  561   Alta Verapaz  : 5916  
##  El Salvador              :  308   San Marcos    : 5789  
##  Honduras                 :   81   Quetzaltenango: 5234  
##  Nicaragua                :   66   Huehuetenango : 5160  
##  Estados Unidos De América:   54   Quiche        : 4871  
##  (Other)                  :  213   (Other)       :41808  
##               Mnadif                            Nacdif     
##  Guatemala       : 8706   Guatemala                :81282  
##  San Pedro Carchá: 1379   Ignorado                 :  560  
##  Escuintla       : 1246   El Salvador              :  308  
##  Quetzaltenango  : 1228   Honduras                 :   81  
##  Cobán           : 1169   Nicaragua                :   66  
##  Jutiapa         : 1103   Estados Unidos De América:   54  
##  (Other)         :67734   (Other)                  :  214  
##                        Predif                 Dredif     
##  Guatemala                :74729   Guatemala     :18540  
##  Ignorado                 : 7753   Ignorado      : 7811  
##  El Salvador              :   36   Alta Verapaz  : 4822  
##  Estados Unidos De América:   14   San Marcos    : 4508  
##  Nicaragua                :   12   Quetzaltenango: 4476  
##  Honduras                 :    8   Huehuetenango : 4324  
##  (Other)                  :   13   (Other)       :38084  
##               Mredif          Caudef             Asist      
##  Guatemala       : 8499   I219   : 5494   Médica    :38364  
##  Ignorado        : 7811   J189   : 5093   Paramédica:  315  
##  Mixco           : 2458   R98X   : 3596   Comadrona :   42  
##  Villa Nueva     : 1916   E149   : 3018   Empírica  : 1960  
##  Quetzaltenango  : 1205   K746   : 2624   Ninguna   :41872  
##  San Pedro Carchá: 1032   X599   : 2614   Ignorado  :   12  
##  (Other)         :59644   (Other):60126                     
##                Ocur              Cerdef     
##  Domicilio       :50230   Medico    :57965  
##  Hospital público:17655   Paramedico:  911  
##  Ignorado        : 5228   Autoridad : 1177  
##  Seguro social   : 4194   Ignorado  :22512  
##  Hospital privado: 2520                     
##  Vía pública     : 1545                     
##  (Other)         : 1193
str(dataset_2016)
## 'data.frame':    82565 obs. of  28 variables:
##  $ Depreg : Factor w/ 22 levels "Guatemala","El Progreso",..: 1 8 1 1 14 1 1 1 1 1 ...
##  $ Mupreg : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 1 105 1 1 249 7 1 1 1 1 ...
##  $ Mesreg : Factor w/ 12 levels "Enero","Febrero",..: 2 1 1 8 9 2 6 5 6 6 ...
##  $ Añoreg : num  2016 2016 2016 2016 2016 ...
##  $ Depocu : Factor w/ 22 levels "Guatemala","El Progreso",..: 1 8 1 1 14 1 1 1 1 1 ...
##  $ Mupocu : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 1 105 1 1 249 1 1 1 1 1 ...
##  $ Areag  : Factor w/ 3 levels "Urbano","Rural",..: 1 2 1 1 2 1 1 2 1 1 ...
##  $ Sexo   : Factor w/ 3 levels "Hombre","Mujer",..: 2 2 1 1 1 1 2 1 2 2 ...
##  $ Diaocu : num  7 21 12 13 3 11 30 1 13 12 ...
##  $ Mesocu : Factor w/ 12 levels "Enero","Febrero",..: 2 1 1 8 9 2 6 5 6 6 ...
##  $ Añoocu : num  2016 2016 2016 2016 2016 ...
##  $ Edadif : Factor w/ 114 levels "0","1","10","100",..: 61 40 47 102 27 52 84 40 72 93 ...
##  $ Perdif : Factor w/ 4 levels "Menos de un mes",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Puedif : Factor w/ 6 levels "Maya","Garífuna",..: 6 4 4 4 6 4 4 4 4 4 ...
##  $ Ecidif : Factor w/ 4 levels "Soltero(a)","Casado(a)",..: 1 1 1 2 1 1 2 1 1 1 ...
##  $ Escodif: Factor w/ 7 levels "Ninguna","Primaria",..: 1 1 1 2 7 2 1 2 1 2 ...
##  $ Ciuodif: Factor w/ 45 levels "Oficiales de las fuerzas armadas",..: 45 45 45 45 45 45 45 45 45 45 ...
##  $ Pnadif : Factor w/ 55 levels "Argentina","Australia",..: 17 21 21 21 21 21 17 21 21 21 ...
##  $ Dnadif : Factor w/ 24 levels "Guatemala","El Progreso",..: 23 8 1 1 1 1 23 1 1 2 ...
##  $ Mnadif : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 341 110 1 1 1 1 341 1 1 18 ...
##  $ Nacdif : Factor w/ 55 levels "Argentina","Australia",..: 17 21 21 21 21 21 17 21 21 21 ...
##  $ Predif : Factor w/ 12 levels "Austria","Belice",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Dredif : Factor w/ 24 levels "Guatemala","El Progreso",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mredif : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Caudef : Factor w/ 1638 levels "A010","A020",..: 160 232 922 1422 803 160 148 922 534 1049 ...
##  $ Asist  : Factor w/ 6 levels "Médica","Paramédica",..: 1 5 1 1 5 1 1 1 1 1 ...
##  $ Ocur   : Factor w/ 9 levels "Hospital público",..: 6 6 6 6 6 6 6 6 6 6 ...
##  $ Cerdef : Factor w/ 4 levels "Medico","Paramedico",..: 4 4 4 4 4 4 4 4 4 4 ...
##  - attr(*, "variable.labels")= Named chr  "Departamento de registro" "Municipio de registro" "Mes de registro" "Año de registro" ...
##   ..- attr(*, "names")= chr  "Depreg" "Mupreg" "Mesreg" "Añoreg" ...
##  - attr(*, "codepage")= int 65001
# Data Dictionary and Challenges (DDC)
dataset_DDC <- readxl::read_xlsx(unzip(pathToZip, files = "DataDictionary_Challenges.xlsx"))
# dim(dataset_DDC)    # 82565    28
View(dataset_DDC)

unlink(pathToZip)

library("DT")
datatable(dataset_2016)

2 Descriptive statistics and graphs of the data

Try some exploratory and quantitative data analytics for these data using these materials: