- Repositorio creado el 2020-05-22 05:05:43 UTC
- Última actualización: 2023-07-04 06:11:20.282815 UTC
Detalles específicos sobre los datos
2020-05-22
- La limpieza de datos no está completa aún, hay fechas de tomas de prueba que parecen ser incorrectas, y que al convertir dan fechas inconsistentes con el primer caso reportado (2020-03-06).
- En al menos un caso, la fecha de toma de pruebas es copia de la fecha de nacimiento.
- He agregado una columna
fecha_prueba_antes_primer_caso
para marcar esos registros. Son 126 registros que tienen este problema.
2020-05-23
- Los datos han cambiado de formato, ya no incluyen la fecha de nacimiento, sino la edad en años.
- El campo de fecha que se tiene ahora ya no es
FECHA_PRUEBA
sinoFECHA_RESULTADO
- El campo de tipo de prueba (antes
TIPO_PRUEBA
) se llama ahoraMETODODX
- Hay 4,543 registros sin fecha de resultado conocida
- Ya no hay incosistencias en los formatos de fecha, todos los registros con valores son de la forma “DD/MM/YYYY”
- Tampoco hay errores como fechas anteriores al primer caso reportado oficialmente.
- Usando edad, departamento, provincia y distrito se han podidor reconstruir unos 2,933 registros de casos con fallecimientos
2020-05-28
- Hay nuevos datasets de positivos y fallecimientos, ahora ambos en formato CSV, pero no en UTF-8:
2020-05-31
- Nuevo cambio de formato en los datos de fallecimientos: en 749 de
registros no se consigna la fecha de nacimiento, pero se ha agregado
una columna
EDAD_DECLARADA
. - He modificado el código para compensar por estos cambios.
- También, todos los 141 fallecimientos asignados al 2020-05-29
están designados como de sexo
INDETERMINADO
.
2020-06-12
- Al menos a partir de ayer, ya aparecen nuevamente los valores definidos para el sexo en los datos.
2020-06-23
- Hay datos que tienen como fecha de el 2020-12-06, cuando podría parecer que es 2020-06-12, esto se ha corregido en los datos limpios en el repo, mas no el original.
2020-07-28
- Luego de varios días sin actualización (al menos 3 días), los datos abiertos han sido actualizados.
- Las fechas en los registros ha cambiado del formato DD/MM/YYY (y algunos MM/DD/YYYY) a YYYYMMDD
2020-09-14
- Modificado el código de proceso de datos pues hay un campo mas:
FECHA_CORTE
2020-10-25
- Tanto los datos de casos positivos, como los de fallecimentos, tienen ahora un formato distinto, en lugar de usar coma (“,”) para separar campos, hoy aparecen con punto y coma (“;”)
2020-11-08
- Al menos desde el 2020-11-04, no han habido actualizaciones de los datos abiertos.
- El hash sha1 de los archivos no ha cambiado hasta ahora:
2020-11-16
- Los datos abiertos no se han actualizado desde el 2020-11-13 (última revisión: 2020-11-16, 23:15h PET)
2021-08-25
- Debido a la “Datatón 2021” del MINSA, los datos ahora incluyen
person_id
que se puede usar para poder enlazar información entre datasets. He reorganizados los datos en función a esto, y aprovechado para aumentar la información original.
26ea469be125d1d0c4e8f9dcedf6692ece12acbb datos/originales/fallecidos_covid.csv
ada0b5da4371b9308e4170ecb53014843e4cb3a2 datos/originales/positivos_covid.csv
2021-06-02
- A partir de hoy los datos de fallecidos por COVID-19 usan los criterios publicados en Criterios técnicos para actualizar la cifra de fallecidos por COVID-19 en el Perú, y se ha cambiado la estructura de los datos. Ahora los datos de fallecidos indican en un campo el criterio empleado para la clasificación.
- Debido al tamaño de los nuevos archivos de datos, estoy cambiando de formato de compresión, usando ahora xz en lugar de gzip
Fuentes de datos:
- https://www.datosabiertos.gob.pe/dataset/casos-positivos-por-covid-19-ministerio-de-salud-minsa
- https://www.datosabiertos.gob.pe/dataset/fallecidos-por-covid-19-ministerio-de-salud-minsa
Luego del primer paso de limpieza de datos:
Análisis exploratorio de los datos de positivos
Name | positivos |
Number of rows | 4512091 |
Number of columns | 16 |
_______________________ | |
Column type frequency: | |
character | 1 |
Date | 2 |
factor | 10 |
numeric | 3 |
________________________ | |
Group variables | None |
Data summary
Variable type: character
skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
---|---|---|---|---|---|---|---|
id_persona | 83349 | 0.98 | 1 | 8 | 0 | 4018914 | 0 |
Variable type: Date
skim_variable | n_missing | complete_rate | min | max | median | n_unique |
---|---|---|---|---|---|---|
fecha_corte | 0 | 1 | 2023-06-19 | 2023-06-19 | 2023-06-19 | 1 |
fecha_resultado | 2023 | 1 | 2020-03-06 | 2023-06-18 | 2021-11-20 | 1198 |
Variable type: factor
skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
---|---|---|---|---|---|
departamento | 0 | 1.00 | FALSE | 25 | LIM: 2126982, ARE: 293310, LA : 182451, PIU: 181786 |
provincia | 0 | 1.00 | FALSE | 197 | LIM: 1847627, ARE: 250162, EN : 232293, CAL: 161037 |
distrito | 0 | 1.00 | FALSE | 1703 | EN : 232293, LIM: 192784, SAN: 141113, JES: 120235 |
metododx | 0 | 1.00 | FALSE | 3 | AG: 2204595, PCR: 1351616, PR: 955880 |
sexo | 0 | 1.00 | FALSE | 3 | Fem: 2332738, Mas: 2179352, No : 1 |
ubigeo | 232293 | 0.95 | FALSE | 1853 | 150: 192784, 150: 141113, 150: 120235, 150: 105053 |
rango_edad_veintiles | 0 | 1.00 | TRUE | 6 | 20-: 1929868, 40-: 1460826, 60-: 604502, 0-1: 412817 |
rango_edad_deciles | 0 | 1.00 | TRUE | 10 | 30-: 1035525, 20-: 894343, 40-: 834253, 50-: 626573 |
rango_edad_quintiles | 0 | 1.00 | TRUE | 18 | 30-: 543492, 25-: 531798, 35-: 492033, 40-: 442166 |
rango_edad_owid | 0 | 1.00 | TRUE | 8 | 25-: 2401576, 50-: 626573, 18-: 453361, 60-: 401709 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
edad | 353 | 1 | 40.70 | 17.68 | 0 | 28 | 39 | 52 | 125 | ▃▇▃▁▁ |
epi_week | 2023 | 1 | 20.60 | 15.69 | 1 | 5 | 19 | 32 | 53 | ▇▃▅▂▂ |
epi_year | 2023 | 1 | 2021.27 | 0.82 | 2020 | 2021 | 2021 | 2022 | 2023 | ▃▅▁▇▁ |
Análisis exploratorio de los datos de fallecidos
Name | fallecidos |
Number of rows | 220673 |
Number of columns | 16 |
_______________________ | |
Column type frequency: | |
character | 1 |
Date | 2 |
factor | 10 |
numeric | 3 |
________________________ | |
Group variables | None |
Data summary
Variable type: character
skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
---|---|---|---|---|---|---|---|
id_persona | 2684 | 0.99 | 2 | 8 | 0 | 217918 | 0 |
Variable type: Date
skim_variable | n_missing | complete_rate | min | max | median | n_unique |
---|---|---|---|---|---|---|
fecha_corte | 0 | 1 | 2023-06-19 | 2023-06-19 | 2023-06-19 | 1 |
fecha_fallecimiento | 0 | 1 | 2020-03-03 | 2023-05-22 | 2021-02-07 | 1169 |
Variable type: factor
skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
---|---|---|---|---|---|
sexo | 0 | 1 | FALSE | 2 | Mas: 139217, Fem: 81456 |
clasificacion_def | 0 | 1 | FALSE | 7 | Cri: 84350, Cri: 66292, Cri: 42903, Cri: 10786 |
departamento | 0 | 1 | FALSE | 25 | LIM: 97517, PIU: 13249, LA : 11083, CAL: 10941 |
provincia | 5 | 1 | FALSE | 196 | LIM: 89578, CAL: 10940, ARE: 8707, TRU: 7409 |
distrito | 5 | 1 | FALSE | 1667 | LIM: 8876, SAN: 8705, SAN: 6919, CAL: 6284 |
ubigeo | 0 | 1 | FALSE | 1804 | 150: 8876, 150: 8705, 150: 6919, 070: 6284 |
rango_edad_veintiles | 0 | 1 | TRUE | 5 | 60-: 106619, 40-: 54397, 80+: 47415, 20-: 10359 |
rango_edad_deciles | 0 | 1 | TRUE | 9 | 60-: 54277, 70-: 52342, 80+: 47415, 50-: 36133 |
rango_edad_quintiles | 0 | 1 | TRUE | 17 | 80+: 47415, 65-: 28279, 70-: 27473, 60-: 25998 |
rango_edad_owid | 0 | 1 | TRUE | 7 | 60-: 54277, 70-: 52342, 80+: 47415, 50-: 36133 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
edad | 0 | 1 | 66.37 | 15.88 | 0 | 57 | 68 | 78 | 114 | ▁▂▇▇▁ |
epi_week | 0 | 1 | 21.58 | 12.10 | 1 | 12 | 20 | 30 | 53 | ▆▇▇▃▂ |
epi_year | 0 | 1 | 2020.65 | 0.65 | 2020 | 2020 | 2021 | 2021 | 2023 | ▇▇▁▁▁ |
Análisis exploratorio de la consolidación entre positivos y fallecidos
Name | reconstruido |
Number of rows | 120317 |
Number of columns | 31 |
_______________________ | |
Column type frequency: | |
Date | 4 |
factor | 20 |
numeric | 7 |
________________________ | |
Group variables | None |
Data summary
Variable type: Date
skim_variable | n_missing | complete_rate | min | max | median | n_unique |
---|---|---|---|---|---|---|
positivo_fecha_corte | 0 | 1 | 2023-06-19 | 2023-06-19 | 2023-06-19 | 1 |
positivo_fecha_resultado | 167 | 1 | 2020-03-12 | 2023-05-19 | 2021-02-04 | 1119 |
fallecido_fecha_corte | 0 | 1 | 2023-06-19 | 2023-06-19 | 2023-06-19 | 1 |
fallecido_fecha_fallecimiento | 0 | 1 | 2020-03-14 | 2023-05-22 | 2021-02-20 | 1160 |
Variable type: factor
skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
---|---|---|---|---|---|
positivo_departamento | 0 | 1.00 | FALSE | 25 | LIM: 57991, CAL: 6647, ARE: 6409, LA : 5621 |
positivo_provincia | 0 | 1.00 | FALSE | 197 | LIM: 48818, EN : 7145, CAL: 6374, ARE: 5305 |
positivo_distrito | 0 | 1.00 | FALSE | 1418 | EN : 7145, SAN: 4283, LIM: 4031, CAL: 3067 |
positivo_metododx | 0 | 1.00 | FALSE | 3 | PCR: 48713, PR: 37329, AG: 34275 |
positivo_sexo | 0 | 1.00 | FALSE | 2 | Mas: 76697, Fem: 43620, No : 0 |
positivo_ubigeo | 7145 | 0.94 | FALSE | 1523 | 150: 4283, 150: 4031, 070: 3067, 150: 3011 |
positivo_rango_edad_veintiles | 0 | 1.00 | TRUE | 6 | 60-: 57798, 40-: 30656, 80+: 24653, 20-: 6134 |
positivo_rango_edad_deciles | 0 | 1.00 | TRUE | 10 | 60-: 29969, 70-: 27829, 80+: 24653, 50-: 20250 |
positivo_rango_edad_quintiles | 0 | 1.00 | TRUE | 18 | 80+: 24653, 65-: 15392, 70-: 14631, 60-: 14577 |
positivo_rango_edad_owid | 0 | 1.00 | TRUE | 8 | 60-: 29969, 70-: 27829, 80+: 24653, 50-: 20250 |
fallecido_sexo | 0 | 1.00 | FALSE | 2 | Mas: 75173, Fem: 45144 |
fallecido_clasificacion_def | 0 | 1.00 | FALSE | 7 | Cri: 73596, Cri: 28643, Cri: 12443, Cri: 2560 |
fallecido_departamento | 0 | 1.00 | FALSE | 25 | LIM: 55393, ARE: 6300, CAL: 6139, LA : 5828 |
fallecido_provincia | 1 | 1.00 | FALSE | 196 | LIM: 50494, CAL: 6138, ARE: 5026, TRU: 3931 |
fallecido_distrito | 1 | 1.00 | FALSE | 1588 | SAN: 4701, LIM: 4506, CAL: 3709, SAN: 3379 |
fallecido_ubigeo | 0 | 1.00 | FALSE | 1713 | 150: 4701, 150: 4506, 070: 3709, 150: 3379 |
fallecido_rango_edad_veintiles | 0 | 1.00 | TRUE | 5 | 60-: 58104, 40-: 30526, 80+: 25040, 20-: 5650 |
fallecido_rango_edad_deciles | 0 | 1.00 | TRUE | 9 | 60-: 30108, 70-: 27996, 80+: 25040, 50-: 20276 |
fallecido_rango_edad_quintiles | 0 | 1.00 | TRUE | 17 | 80+: 25040, 65-: 15523, 70-: 14732, 60-: 14585 |
fallecido_rango_edad_owid | 0 | 1.00 | TRUE | 7 | 60-: 30108, 70-: 27996, 80+: 25040, 50-: 20276 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
id_persona | 0 | 1 | 24482739.49 | 14373513.48 | 12 | 9567219 | 36206609 | 36598244 | 39454010 | ▃▂▁▁▇ |
positivo_edad | 6 | 1 | 65.82 | 15.98 | 0 | 56 | 67 | 77 | 121 | ▁▂▇▆▁ |
positivo_epi_week | 167 | 1 | 20.51 | 12.68 | 1 | 10 | 19 | 30 | 53 | ▇▇▇▃▂ |
positivo_epi_year | 167 | 1 | 2020.68 | 0.66 | 2020 | 2020 | 2021 | 2021 | 2023 | ▇▇▁▂▁ |
fallecido_edad | 0 | 1 | 66.12 | 15.79 | 0 | 57 | 67 | 77 | 113 | ▁▂▇▇▁ |
fallecido_epi_week | 0 | 1 | 21.48 | 12.57 | 1 | 11 | 20 | 31 | 53 | ▇▇▇▃▂ |
fallecido_epi_year | 0 | 1 | 2020.76 | 0.72 | 2020 | 2020 | 2021 | 2021 | 2023 | ▆▇▁▂▁ |
Los archivos procesados y aumentados son:
Y algunos reconstruidos a partir de los anteriores: