Load the SPSS (*.sav) 2 datasets, generate summary statistics for all variables, plot some of the features (e.g., histograms, box plots, density plots, etc.) of several variables.
# install.packages("foreign")
library("foreign")
pathToZip <- tempfile()
download.file("https://umich.instructure.com/files/8882923/download?download_frd=1", pathToZip, mode = "wb")
#dataset <- read.spss(unzip(pathToZip, files = "namcs2015-spss.sav", list = F, overwrite = TRUE), to.data.frame=TRUE)
# Check ZIP file content
unzip(pathToZip, list = T, overwrite = TRUE)
## Name Length Date
## 1 2009vitales.sav 5306437 2018-10-11 14:34:00
## 2 2016vitales.sav 9629442 2018-10-11 14:35:00
## 3 DataDictionary_Challenges.xlsx 11069 2018-10-11 14:34:00
# 2009
dataset_2009 <- read.spss(unzip(pathToZip, files = "2009vitales.sav", list = F, overwrite = TRUE), to.data.frame=TRUE)
dim(dataset_2009)
## [1] 71707 25
## 71707 25
# str(dataset_2009)
# View(dataset_2009)
summary(dataset_2009)
## Depreg Mupreg Mesreg
## Guatemala :21391 Guatemala :16074 Julio : 6553
## Quetzaltenango: 4465 Quetzaltenango : 1644 Enero : 6382
## Alta Verapaz : 4355 Escuintla : 1498 Marzo : 6293
## San Marcos : 4351 Cobán : 1100 Agosto : 6134
## Huehuetenango : 3908 Mixco : 1045 Abril : 6084
## Escuintla : 3817 Mazatenango : 929 Junio : 5987
## (Other) :29420 (Other) :49417 (Other):34274
## Añoreg Depocu Mupocu
## Min. : 9.000 Guatemala :21388 Guatemala :15470
## 1st Qu.: 9.000 Quetzaltenango: 4465 Quetzaltenango : 1644
## Median : 9.000 Alta Verapaz : 4354 Escuintla : 1509
## Mean : 9.016 San Marcos : 4346 Mixco : 1387
## 3rd Qu.: 9.000 Huehuetenango : 3911 Cobán : 1117
## Max. :10.000 Escuintla : 3820 Villa Nueva : 943
## (Other) :29423 (Other) :49637
## Areag Sexo Diaocu Mesocu
## Urbano :38610 Hombre:41354 Min. : 1.00 Julio : 6312
## Rural :30859 Mujer :30353 1st Qu.: 8.00 Agosto : 6232
## Ignorado: 2238 Median :16.00 Marzo : 6145
## Mean :15.63 Enero : 6088
## 3rd Qu.:23.00 Junio : 6006
## Max. :31.00 Mayo : 5982
## (Other):34942
## Añoocu Edadif Perdif Getdif
## Min. :9 1 : 3509 Menos de un mes: 3168 No indigena:25251
## 1st Qu.:9 2 : 1734 1 a 11 meses : 4686 Indigena :18612
## Median :9 81 : 1238 1 año y más :63342 Ignorado :27844
## Mean :9 80 : 1220 Ignorado : 511
## 3rd Qu.:9 78 : 1195
## Max. :9 79 : 1183
## (Other):61628
## Ecidif Ocudif
## Soltero :42692 Peones de explotaciones agrícolas :19702
## Casado :25833 Oficios domésticos no remunerados :18851
## Unido : 603 Infante (Sin ocupación) :11829
## Ignorado: 2579 Estudiante : 5455
## Ignorado : 3621
## Limpiadores y asistentes domésticos : 1876
## (Other) :10373
## Dnadif Mnadif
## Guatemala :16176 Guatemala : 8735
## Ignorado : 5541 Ignorado : 5858
## San Marcos : 4405 Mixco : 1649
## Escuintla : 3834 Villa Nueva : 1386
## Alta Verapaz : 3693 Quetzaltenango : 907
## Quetzaltenango: 3658 Escuintla : 904
## (Other) :34400 (Other) :52268
## Nacdif Dredif
## Guatemalteco(a) :70452 Guatemala :16887
## Ignorado : 473 San Marcos : 4787
## Extranjero(a)_duplicated_36: 260 Alta Verapaz : 4240
## Extranjero(a)_duplicated_37: 138 Escuintla : 3950
## Extranjero(a)_duplicated_38: 81 Huehuetenango : 3934
## Extranjero(a)_duplicated_32: 60 Quetzaltenango: 3921
## (Other) : 243 (Other) :33988
## Mredif Caudef Asist
## Guatemala : 9149 J189 : 4375 Médico :30390
## Ignorado : 1976 I219 : 3409 Comadrona: 232
## Mixco : 1740 X599 : 2568 Empírica : 1907
## Villa Nueva : 1434 A09X : 2502 Ninguna :38989
## Escuintla : 979 J180 : 2456 Ignorado : 189
## Quetzaltenango : 942 X959 : 2376
## (Other) :55487 (Other):54021
## Ocur Cerdef
## Hospital :19662 Médica :50124
## Casa de salud: 386 Empírica : 7000
## Vía pública : 6834 Autoridad: 0
## Domicilio :44376 Ignorado :14583
## Ignorado : 449
##
##
str(dataset_2009)
## 'data.frame': 71707 obs. of 25 variables:
## $ Depreg: Factor w/ 22 levels "Guatemala","El Progreso",..: 5 1 22 2 1 5 1 1 5 5 ...
## $ Mupreg: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 62 1 323 18 1 61 13 15 62 58 ...
## $ Mesreg: Factor w/ 12 levels "Enero","Febrero",..: 1 9 9 12 5 10 11 1 4 1 ...
## $ Añoreg: num 9 9 9 9 9 9 9 9 9 9 ...
## $ Depocu: Factor w/ 22 levels "Guatemala","El Progreso",..: 5 1 22 2 1 5 1 1 5 5 ...
## $ Mupocu: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 62 1 323 18 1 61 13 15 62 58 ...
## $ Areag : Factor w/ 3 levels "Urbano","Rural",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Sexo : Factor w/ 2 levels "Hombre","Mujer": 1 1 2 1 2 1 1 1 2 2 ...
## $ Diaocu: num 2 27 23 5 7 18 10 12 11 1 ...
## $ Mesocu: Factor w/ 12 levels "Enero","Febrero",..: 1 9 8 12 5 10 11 1 4 1 ...
## $ Añoocu: num 9 9 9 9 9 9 9 9 9 9 ...
## $ Edadif: Factor w/ 118 levels "0","1","10","100",..: 20 26 28 28 29 31 32 33 33 35 ...
## $ Perdif: Factor w/ 4 levels "Menos de un mes",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Getdif: Factor w/ 3 levels "No indigena",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Ecidif: Factor w/ 4 levels "Soltero","Casado",..: 1 1 1 1 2 1 1 1 1 2 ...
## $ Ocudif: Factor w/ 445 levels "Oficiales de las fuerzas armadas ",..: 441 441 441 445 441 441 441 441 441 440 ...
## $ Dnadif: Factor w/ 24 levels "Guatemala","El Progreso",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Mnadif: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Nacdif: Factor w/ 35 levels "Guatemalteco(a)",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Dredif: Factor w/ 24 levels "Guatemala","El Progreso",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Mredif: Factor w/ 336 levels "Guatemala ","Santa Catarina Pinula ",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Caudef: Factor w/ 1662 levels "A009","A010",..: 1626 1558 1573 1380 1531 1510 1569 1573 1514 1514 ...
## $ Asist : Factor w/ 5 levels "Médico","Comadrona",..: 1 4 4 4 4 4 4 4 4 4 ...
## $ Ocur : Factor w/ 5 levels "Hospital","Casa de salud",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Cerdef: Factor w/ 4 levels "Médica","Empírica",..: 1 1 2 1 1 1 1 1 1 1 ...
## - attr(*, "variable.labels")= Named chr "Departamento de registro" "Municipio de registro" "Mes de registro" "Año de registro" ...
## ..- attr(*, "names")= chr "Depreg" "Mupreg" "Mesreg" "Añoreg" ...
## - attr(*, "codepage")= int 65001
# 2016
dataset_2016 <- read.spss(unzip(pathToZip, files = "2016vitales.sav", list = F, overwrite = TRUE), to.data.frame=TRUE)
dim(dataset_2016) # 82565 28
## [1] 82565 28
summary(dataset_2016)
## Depreg Mupreg Mesreg
## Guatemala :24357 Guatemala :20579 Marzo : 7346
## Alta Verapaz : 5249 Quetzaltenango: 1788 Mayo : 7271
## Quetzaltenango: 5016 Cobán : 1376 Enero : 7165
## San Marcos : 4706 Escuintla : 1072 Agosto : 7117
## Huehuetenango : 4679 Chiquimula : 956 Febrero: 7104
## Escuintla : 4665 Chimaltenango : 940 Abril : 7056
## (Other) :33893 (Other) :55854 (Other):39506
## Añoreg Depocu Mupocu
## Min. :2016 Guatemala :24273 Guatemala :15800
## 1st Qu.:2016 Alta Verapaz : 5233 Mixco : 2172
## Median :2016 Quetzaltenango: 5141 Escuintla : 1972
## Mean :2016 Escuintla : 4737 Quetzaltenango: 1819
## 3rd Qu.:2016 Huehuetenango : 4658 Villa Nueva : 1373
## Max. :2017 San Marcos : 4573 Cobán : 1337
## (Other) :33950 (Other) :58092
## Areag Sexo Diaocu Mesocu
## Urbano :45978 Hombre :46267 Min. : 1.00 Marzo : 7397
## Rural :35292 Mujer :36298 1st Qu.: 8.00 Mayo : 7145
## Ignorado: 1295 Ignorado: 0 Median :16.00 Enero : 7119
## Mean :15.75 Julio : 7046
## 3rd Qu.:23.00 Abril : 6984
## Max. :31.00 Octubre: 6882
## (Other):39992
## Añoocu Edadif Perdif
## Min. :2016 1 : 3338 Menos de un mes: 4203
## 1st Qu.:2016 2 : 1628 1 a 11 meses : 4163
## Median :2016 84 : 1441 1 año y má :73734
## Mean :2016 85 : 1429 Ignorado : 465
## 3rd Qu.:2016 80 : 1416
## Max. :2016 86 : 1358
## (Other):71955
## Puedif Ecidif Escodif
## Maya :23133 Soltero(a):53660 Ninguna :45836
## Garífuna : 46 Casado(a) :27523 Primaria :22052
## Xinca : 26 Unido(a) : 808 Básico : 3940
## Mestizo, Ladino:42165 Ignorado : 574 Diversificado: 5221
## Otro : 868 Universitario: 1225
## Ignorado :16327 Post grado : 35
## Ignorado : 4256
## Ciuodif
## No especificado en otro grupo :41963
## Peones agropecuarios, pesqueros y forestales :19772
## Ignorado : 6149
## Vendedores : 3085
## Oficiales y operarios de la construcción excluyendo electricistas: 1796
## Conductores de vehículos y operadores de equipos pesados móviles : 1400
## (Other) : 8400
## Pnadif Dnadif
## Guatemala :81282 Guatemala :13787
## Ignorado : 561 Alta Verapaz : 5916
## El Salvador : 308 San Marcos : 5789
## Honduras : 81 Quetzaltenango: 5234
## Nicaragua : 66 Huehuetenango : 5160
## Estados Unidos De América: 54 Quiche : 4871
## (Other) : 213 (Other) :41808
## Mnadif Nacdif
## Guatemala : 8706 Guatemala :81282
## San Pedro Carchá: 1379 Ignorado : 560
## Escuintla : 1246 El Salvador : 308
## Quetzaltenango : 1228 Honduras : 81
## Cobán : 1169 Nicaragua : 66
## Jutiapa : 1103 Estados Unidos De América: 54
## (Other) :67734 (Other) : 214
## Predif Dredif
## Guatemala :74729 Guatemala :18540
## Ignorado : 7753 Ignorado : 7811
## El Salvador : 36 Alta Verapaz : 4822
## Estados Unidos De América: 14 San Marcos : 4508
## Nicaragua : 12 Quetzaltenango: 4476
## Honduras : 8 Huehuetenango : 4324
## (Other) : 13 (Other) :38084
## Mredif Caudef Asist
## Guatemala : 8499 I219 : 5494 Médica :38364
## Ignorado : 7811 J189 : 5093 Paramédica: 315
## Mixco : 2458 R98X : 3596 Comadrona : 42
## Villa Nueva : 1916 E149 : 3018 Empírica : 1960
## Quetzaltenango : 1205 K746 : 2624 Ninguna :41872
## San Pedro Carchá: 1032 X599 : 2614 Ignorado : 12
## (Other) :59644 (Other):60126
## Ocur Cerdef
## Domicilio :50230 Medico :57965
## Hospital público:17655 Paramedico: 911
## Ignorado : 5228 Autoridad : 1177
## Seguro social : 4194 Ignorado :22512
## Hospital privado: 2520
## Vía pública : 1545
## (Other) : 1193
str(dataset_2016)
## 'data.frame': 82565 obs. of 28 variables:
## $ Depreg : Factor w/ 22 levels "Guatemala","El Progreso",..: 1 8 1 1 14 1 1 1 1 1 ...
## $ Mupreg : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 1 105 1 1 249 7 1 1 1 1 ...
## $ Mesreg : Factor w/ 12 levels "Enero","Febrero",..: 2 1 1 8 9 2 6 5 6 6 ...
## $ Añoreg : num 2016 2016 2016 2016 2016 ...
## $ Depocu : Factor w/ 22 levels "Guatemala","El Progreso",..: 1 8 1 1 14 1 1 1 1 1 ...
## $ Mupocu : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 1 105 1 1 249 1 1 1 1 1 ...
## $ Areag : Factor w/ 3 levels "Urbano","Rural",..: 1 2 1 1 2 1 1 2 1 1 ...
## $ Sexo : Factor w/ 3 levels "Hombre","Mujer",..: 2 2 1 1 1 1 2 1 2 2 ...
## $ Diaocu : num 7 21 12 13 3 11 30 1 13 12 ...
## $ Mesocu : Factor w/ 12 levels "Enero","Febrero",..: 2 1 1 8 9 2 6 5 6 6 ...
## $ Añoocu : num 2016 2016 2016 2016 2016 ...
## $ Edadif : Factor w/ 114 levels "0","1","10","100",..: 61 40 47 102 27 52 84 40 72 93 ...
## $ Perdif : Factor w/ 4 levels "Menos de un mes",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Puedif : Factor w/ 6 levels "Maya","Garífuna",..: 6 4 4 4 6 4 4 4 4 4 ...
## $ Ecidif : Factor w/ 4 levels "Soltero(a)","Casado(a)",..: 1 1 1 2 1 1 2 1 1 1 ...
## $ Escodif: Factor w/ 7 levels "Ninguna","Primaria",..: 1 1 1 2 7 2 1 2 1 2 ...
## $ Ciuodif: Factor w/ 45 levels "Oficiales de las fuerzas armadas",..: 45 45 45 45 45 45 45 45 45 45 ...
## $ Pnadif : Factor w/ 55 levels "Argentina","Australia",..: 17 21 21 21 21 21 17 21 21 21 ...
## $ Dnadif : Factor w/ 24 levels "Guatemala","El Progreso",..: 23 8 1 1 1 1 23 1 1 2 ...
## $ Mnadif : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 341 110 1 1 1 1 341 1 1 18 ...
## $ Nacdif : Factor w/ 55 levels "Argentina","Australia",..: 17 21 21 21 21 21 17 21 21 21 ...
## $ Predif : Factor w/ 12 levels "Austria","Belice",..: 4 4 4 4 4 4 4 4 4 4 ...
## $ Dredif : Factor w/ 24 levels "Guatemala","El Progreso",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Mredif : Factor w/ 342 levels "Guatemala","Santa Catarina Pinula",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Caudef : Factor w/ 1638 levels "A010","A020",..: 160 232 922 1422 803 160 148 922 534 1049 ...
## $ Asist : Factor w/ 6 levels "Médica","Paramédica",..: 1 5 1 1 5 1 1 1 1 1 ...
## $ Ocur : Factor w/ 9 levels "Hospital público",..: 6 6 6 6 6 6 6 6 6 6 ...
## $ Cerdef : Factor w/ 4 levels "Medico","Paramedico",..: 4 4 4 4 4 4 4 4 4 4 ...
## - attr(*, "variable.labels")= Named chr "Departamento de registro" "Municipio de registro" "Mes de registro" "Año de registro" ...
## ..- attr(*, "names")= chr "Depreg" "Mupreg" "Mesreg" "Añoreg" ...
## - attr(*, "codepage")= int 65001
# Data Dictionary and Challenges (DDC)
dataset_DDC <- readxl::read_xlsx(unzip(pathToZip, files = "DataDictionary_Challenges.xlsx"))
# dim(dataset_DDC) # 82565 28
View(dataset_DDC)
unlink(pathToZip)
library("DT")
datatable(dataset_2016)