-
-
Notifications
You must be signed in to change notification settings - Fork 416
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Novo spider]: Guaratuba-PR #1138 #1142
base: main
Are you sure you want to change the base?
Conversation
Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui. Mas quando eu rodei o spider para todo o período ele apresentou o um erro, o mesmo que foi relato na issue 869. Eu não tenho ideia de como debugar esse erro, apesar que não ter interferido no processo e os arquivos terem sido baixados corretamente e o csv ter sido gerado normalmente. O log do erro é esse aqui.. E o erro apresentado é o que segue, Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6' |
Pode pingar, tô aqui pra isso! (:
Se você pesquisar no log por "ERROR" vai achar 6 casos. Um deles é:
O log está informando que estas 6 edições não foram coletadas. Tem que investigar esses casos. Olhei esse primeiro e parece que o arquivo da edição 332 (29/08/14) não existe no site justificando ter dado 404. Tem que ir conferir os 5 demais, porém nesse caso, parece que não tem nada de errado. Pro raspador é um erro pq ele espera coletar o arquivo e não acha; mas se o arquivo não existe no site pra ser coletado não tem o que fazer (poderia ser questão de acionar a prefeitura para cobrar corrija isso no site dela). Da parte da raspagem, o que tinha para ser coletado, foi. |
Entendi. E é isso mesmo, fui no site do diário oficial, no ano de 2014 na edição 332 e o link está quebrado. Vou conferir as outras ocerrências para ter certeza se é o mesmo problema. Muito Obrigado. |
De fato, os erros apresentados foram devidos ao links quebrados na página do diário. Por este motivo, não há muito a ser feito neste escopo. Talvez notificar de alguma forma o mantenedor do sistemas. Mas pra essa task acredito que seria esse o PR mesmo. |
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
URL da forma de consulta
http://portal.guaratuba.pr.gov.br/diariosoficiais
Período de publicação
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Conteúdo da publicação
Diário único: documento publicado é uma edição completa do diário oficial
Detalhes do site de publicação
No response
Observações
No response
Evidências
ultima
pr_guaratuba_2024-05-07.csv
pr_guaratuba_2024-05-07.log
janeiro/2010 - hoje
pr_guaratuba_2010-01-01_today.csv
pr_guaratuba_2010-01-01_today.log
Intervalo: 2016-12-13 a 2016-12-15
pr_guaratuba_2016-12-13_2016-12-15.csv
pr_guaratuba_2016-12-13_2016-12-15.log