Skip to content

jmcastagnetto/covid-19-peru-limpiar-datos-minsa

Repository files navigation

DOI License

  • Repositorio creado el 2020-05-22 05:05:43 UTC
  • Última actualización: 2023-07-04 06:11:20.282815 UTC

Notas

Detalles específicos sobre los datos

2020-05-22

  • La limpieza de datos no está completa aún, hay fechas de tomas de prueba que parecen ser incorrectas, y que al convertir dan fechas inconsistentes con el primer caso reportado (2020-03-06).
  • En al menos un caso, la fecha de toma de pruebas es copia de la fecha de nacimiento.
  • He agregado una columna fecha_prueba_antes_primer_caso para marcar esos registros. Son 126 registros que tienen este problema.

2020-05-23

  • Los datos han cambiado de formato, ya no incluyen la fecha de nacimiento, sino la edad en años.
  • El campo de fecha que se tiene ahora ya no es FECHA_PRUEBA sino FECHA_RESULTADO
  • El campo de tipo de prueba (antes TIPO_PRUEBA) se llama ahora METODODX
  • Hay 4,543 registros sin fecha de resultado conocida
  • Ya no hay incosistencias en los formatos de fecha, todos los registros con valores son de la forma “DD/MM/YYYY”
  • Tampoco hay errores como fechas anteriores al primer caso reportado oficialmente.
  • Usando edad, departamento, provincia y distrito se han podidor reconstruir unos 2,933 registros de casos con fallecimientos

2020-05-28

2020-05-31

  • Nuevo cambio de formato en los datos de fallecimientos: en 749 de registros no se consigna la fecha de nacimiento, pero se ha agregado una columna EDAD_DECLARADA.
  • He modificado el código para compensar por estos cambios.
  • También, todos los 141 fallecimientos asignados al 2020-05-29 están designados como de sexo INDETERMINADO.

2020-06-12

  • Al menos a partir de ayer, ya aparecen nuevamente los valores definidos para el sexo en los datos.

2020-06-23

  • Hay datos que tienen como fecha de el 2020-12-06, cuando podría parecer que es 2020-06-12, esto se ha corregido en los datos limpios en el repo, mas no el original.

2020-07-28

  • Luego de varios días sin actualización (al menos 3 días), los datos abiertos han sido actualizados.
  • Las fechas en los registros ha cambiado del formato DD/MM/YYY (y algunos MM/DD/YYYY) a YYYYMMDD

2020-09-14

  • Modificado el código de proceso de datos pues hay un campo mas: FECHA_CORTE

2020-10-25

  • Tanto los datos de casos positivos, como los de fallecimentos, tienen ahora un formato distinto, en lugar de usar coma (“,”) para separar campos, hoy aparecen con punto y coma (“;”)

2020-11-08

  • Al menos desde el 2020-11-04, no han habido actualizaciones de los datos abiertos.
  • El hash sha1 de los archivos no ha cambiado hasta ahora:

2020-11-16

  • Los datos abiertos no se han actualizado desde el 2020-11-13 (última revisión: 2020-11-16, 23:15h PET)

2021-08-25

  • Debido a la “Datatón 2021” del MINSA, los datos ahora incluyen person_id que se puede usar para poder enlazar información entre datasets. He reorganizados los datos en función a esto, y aprovechado para aumentar la información original.
26ea469be125d1d0c4e8f9dcedf6692ece12acbb  datos/originales/fallecidos_covid.csv
ada0b5da4371b9308e4170ecb53014843e4cb3a2  datos/originales/positivos_covid.csv

2021-06-02

Información relevante

Fuentes de datos:

Luego del primer paso de limpieza de datos:

Casos positivos

Análisis exploratorio de los datos de positivos Data summary
Name positivos
Number of rows 4512091
Number of columns 16
_______________________
Column type frequency:
character 1
Date 2
factor 10
numeric 3
________________________
Group variables None

Data summary

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
id_persona 83349 0.98 1 8 0 4018914 0

Variable type: Date

skim_variable n_missing complete_rate min max median n_unique
fecha_corte 0 1 2023-06-19 2023-06-19 2023-06-19 1
fecha_resultado 2023 1 2020-03-06 2023-06-18 2021-11-20 1198

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
departamento 0 1.00 FALSE 25 LIM: 2126982, ARE: 293310, LA : 182451, PIU: 181786
provincia 0 1.00 FALSE 197 LIM: 1847627, ARE: 250162, EN : 232293, CAL: 161037
distrito 0 1.00 FALSE 1703 EN : 232293, LIM: 192784, SAN: 141113, JES: 120235
metododx 0 1.00 FALSE 3 AG: 2204595, PCR: 1351616, PR: 955880
sexo 0 1.00 FALSE 3 Fem: 2332738, Mas: 2179352, No : 1
ubigeo 232293 0.95 FALSE 1853 150: 192784, 150: 141113, 150: 120235, 150: 105053
rango_edad_veintiles 0 1.00 TRUE 6 20-: 1929868, 40-: 1460826, 60-: 604502, 0-1: 412817
rango_edad_deciles 0 1.00 TRUE 10 30-: 1035525, 20-: 894343, 40-: 834253, 50-: 626573
rango_edad_quintiles 0 1.00 TRUE 18 30-: 543492, 25-: 531798, 35-: 492033, 40-: 442166
rango_edad_owid 0 1.00 TRUE 8 25-: 2401576, 50-: 626573, 18-: 453361, 60-: 401709

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
edad 353 1 40.70 17.68 0 28 39 52 125 ▃▇▃▁▁
epi_week 2023 1 20.60 15.69 1 5 19 32 53 ▇▃▅▂▂
epi_year 2023 1 2021.27 0.82 2020 2021 2021 2022 2023 ▃▅▁▇▁

Fallecimientos

Análisis exploratorio de los datos de fallecidos Data summary
Name fallecidos
Number of rows 220673
Number of columns 16
_______________________
Column type frequency:
character 1
Date 2
factor 10
numeric 3
________________________
Group variables None

Data summary

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
id_persona 2684 0.99 2 8 0 217918 0

Variable type: Date

skim_variable n_missing complete_rate min max median n_unique
fecha_corte 0 1 2023-06-19 2023-06-19 2023-06-19 1
fecha_fallecimiento 0 1 2020-03-03 2023-05-22 2021-02-07 1169

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
sexo 0 1 FALSE 2 Mas: 139217, Fem: 81456
clasificacion_def 0 1 FALSE 7 Cri: 84350, Cri: 66292, Cri: 42903, Cri: 10786
departamento 0 1 FALSE 25 LIM: 97517, PIU: 13249, LA : 11083, CAL: 10941
provincia 5 1 FALSE 196 LIM: 89578, CAL: 10940, ARE: 8707, TRU: 7409
distrito 5 1 FALSE 1667 LIM: 8876, SAN: 8705, SAN: 6919, CAL: 6284
ubigeo 0 1 FALSE 1804 150: 8876, 150: 8705, 150: 6919, 070: 6284
rango_edad_veintiles 0 1 TRUE 5 60-: 106619, 40-: 54397, 80+: 47415, 20-: 10359
rango_edad_deciles 0 1 TRUE 9 60-: 54277, 70-: 52342, 80+: 47415, 50-: 36133
rango_edad_quintiles 0 1 TRUE 17 80+: 47415, 65-: 28279, 70-: 27473, 60-: 25998
rango_edad_owid 0 1 TRUE 7 60-: 54277, 70-: 52342, 80+: 47415, 50-: 36133

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
edad 0 1 66.37 15.88 0 57 68 78 114 ▁▂▇▇▁
epi_week 0 1 21.58 12.10 1 12 20 30 53 ▆▇▇▃▂
epi_year 0 1 2020.65 0.65 2020 2020 2021 2021 2023 ▇▇▁▁▁

Reconstrucción de positivos a fallecidos

Análisis exploratorio de la consolidación entre positivos y fallecidos Data summary
Name reconstruido
Number of rows 120317
Number of columns 31
_______________________
Column type frequency:
Date 4
factor 20
numeric 7
________________________
Group variables None

Data summary

Variable type: Date

skim_variable n_missing complete_rate min max median n_unique
positivo_fecha_corte 0 1 2023-06-19 2023-06-19 2023-06-19 1
positivo_fecha_resultado 167 1 2020-03-12 2023-05-19 2021-02-04 1119
fallecido_fecha_corte 0 1 2023-06-19 2023-06-19 2023-06-19 1
fallecido_fecha_fallecimiento 0 1 2020-03-14 2023-05-22 2021-02-20 1160

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
positivo_departamento 0 1.00 FALSE 25 LIM: 57991, CAL: 6647, ARE: 6409, LA : 5621
positivo_provincia 0 1.00 FALSE 197 LIM: 48818, EN : 7145, CAL: 6374, ARE: 5305
positivo_distrito 0 1.00 FALSE 1418 EN : 7145, SAN: 4283, LIM: 4031, CAL: 3067
positivo_metododx 0 1.00 FALSE 3 PCR: 48713, PR: 37329, AG: 34275
positivo_sexo 0 1.00 FALSE 2 Mas: 76697, Fem: 43620, No : 0
positivo_ubigeo 7145 0.94 FALSE 1523 150: 4283, 150: 4031, 070: 3067, 150: 3011
positivo_rango_edad_veintiles 0 1.00 TRUE 6 60-: 57798, 40-: 30656, 80+: 24653, 20-: 6134
positivo_rango_edad_deciles 0 1.00 TRUE 10 60-: 29969, 70-: 27829, 80+: 24653, 50-: 20250
positivo_rango_edad_quintiles 0 1.00 TRUE 18 80+: 24653, 65-: 15392, 70-: 14631, 60-: 14577
positivo_rango_edad_owid 0 1.00 TRUE 8 60-: 29969, 70-: 27829, 80+: 24653, 50-: 20250
fallecido_sexo 0 1.00 FALSE 2 Mas: 75173, Fem: 45144
fallecido_clasificacion_def 0 1.00 FALSE 7 Cri: 73596, Cri: 28643, Cri: 12443, Cri: 2560
fallecido_departamento 0 1.00 FALSE 25 LIM: 55393, ARE: 6300, CAL: 6139, LA : 5828
fallecido_provincia 1 1.00 FALSE 196 LIM: 50494, CAL: 6138, ARE: 5026, TRU: 3931
fallecido_distrito 1 1.00 FALSE 1588 SAN: 4701, LIM: 4506, CAL: 3709, SAN: 3379
fallecido_ubigeo 0 1.00 FALSE 1713 150: 4701, 150: 4506, 070: 3709, 150: 3379
fallecido_rango_edad_veintiles 0 1.00 TRUE 5 60-: 58104, 40-: 30526, 80+: 25040, 20-: 5650
fallecido_rango_edad_deciles 0 1.00 TRUE 9 60-: 30108, 70-: 27996, 80+: 25040, 50-: 20276
fallecido_rango_edad_quintiles 0 1.00 TRUE 17 80+: 25040, 65-: 15523, 70-: 14732, 60-: 14585
fallecido_rango_edad_owid 0 1.00 TRUE 7 60-: 30108, 70-: 27996, 80+: 25040, 50-: 20276

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
id_persona 0 1 24482739.49 14373513.48 12 9567219 36206609 36598244 39454010 ▃▂▁▁▇
positivo_edad 6 1 65.82 15.98 0 56 67 77 121 ▁▂▇▆▁
positivo_epi_week 167 1 20.51 12.68 1 10 19 30 53 ▇▇▇▃▂
positivo_epi_year 167 1 2020.68 0.66 2020 2020 2021 2021 2023 ▇▇▁▂▁
fallecido_edad 0 1 66.12 15.79 0 57 67 77 113 ▁▂▇▇▁
fallecido_epi_week 0 1 21.48 12.57 1 11 20 31 53 ▇▇▇▃▂
fallecido_epi_year 0 1 2020.76 0.72 2020 2020 2021 2021 2023 ▆▇▁▂▁

Gráficos

Casos positivos por dia (MINSA)

“Positivos por día. MINSA”

Casos positivos acumulados (MINSA)

“Positivos acumulados. MINSA”

Casos positivos por dia y Departamento (MINSA)

“Positivos por día y por Departamento. MINSA”

Fallecimientos por día (MINSA)

“Fallecimientos por día. MINSA”

Fallecimientos por día y criterio (MINSA)

“Fallecimientos por día, por criterio usado”

Fallecimientos acumulados (MINSA)

“Fallecimientos acumulados. MINSA”

Fallecimientos por día y Departamento (MINSA)

“Fallecimientos por día y por Departamento. MINSA”

Distribución de tiempos desde detección a fallecimiento, por número de registros coincidentes

“Distribución de tiempos desde detección a fallecimiento, por número de registros coincidentes”

Los archivos procesados y aumentados son:

Y algunos reconstruidos a partir de los anteriores: