-
-
Notifications
You must be signed in to change notification settings - Fork 416
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Manutenção] Novo raspador para Duque Bacelar-MA #1291
base: main
Are you sure you want to change the base?
Conversation
b9d4f3e
to
d0917f2
Compare
f371afa
to
5ec86ee
Compare
parabéns pela PR, @ivanzigoni! Coloquei ela na fila de revisão. Ficou faltando só ter deixado um comentário na issue indicando que ia fazer ela, pra eu poder atualizar o campo de "Assignees" com o seu perfil. |
return sorted(output, key=lambda entry: entry.get("date")) | ||
|
||
def parse(self, response: scrapy.http.Response): | ||
_, *gazette_element_list, __ = response.css("tr") |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Provavelmente usando melhor os recursos de Seletores tem uma solução pra isso, mas se não tiver, outro jeito é selecionando a sublista
_, *gazette_element_list, __ = response.css("tr") | |
gazette_element_list = response.css("tr")[1:-2] |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
como solicitado, removi todas as desestruturações de array
def _extract_url(self, url_element: scrapy.Selector): | ||
(raw_path,) = url_element.css("a") | ||
|
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Se precisa só da primeira ocorrência, .get() é o suficiente
def _extract_url(self, url_element: scrapy.Selector): | |
(raw_path,) = url_element.css("a") | |
def _extract_url(self, url_element): | |
raw_path = url_element.css("a").get() | |
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
Resolve #1173.
edit: evidências atualizadas em 10/10/2024, depois da implementação das alterações sugeridas.
ma_duque_bacelar_coleta-teste_ultima.log
ma_duque_bacelar_coleta-teste_intervalo.csv
ma_duque_bacelar_coleta-teste_intervalo.log
ma_duque_bacelar_coleta-teste_completa.csv
ma_duque_bacelar_coleta-teste_completa.log