Cria raspador base para DETO e municípios #1336

firefueled · 2024-12-19T18:13:59Z

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

O layout não se parece com nenhum caso da lista de layouts padrão
É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
Explicitar o atributo de classe end_date não se fez necessário.
Não utilizo custom_settings em meu raspador.

Testes

Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

#1093

Esta PR tenta adicionar 7 raspadores de Tocantins que usariam o mesmo sistema de publicação.

Também conserta url removendo espaços e adiciona {"DOWNLOAD_DELAY": 1.0}

firefueled · 2024-12-19T18:56:53Z

Preciso de uma ajuda pra decidir o que fazer com esta tarefa.

Apesar do site ser bem difícil de raspar devido a sua dependência no JS, tava até me divertindo conseguindo tocar aos trancos e barrancos.
Comecei tomando o site de Lavandeira como exemplo. Ele tem uma tabela paginada e eu consegui fazer o raspador navegar pelas páginas e pegar itens de cada uma delas.

O problema começou a surgir nesta navegação entre páginas. Comecei a receber respostas inesperadas do backend sem motivo aparente. Após muita dor de cabeça, cheguei à conclusão que o problema é no backend mesmo, e não parece ser um bug no meu raspador.
A evidência mais clara disso está aqui. Isso mostra três execuções subsequentes com resultados de captura diferentes.

O que acontece é que, em alguns momentos, uns itens são baixáveis porque o servidor responde OK na requisição necessária para construir o link de download do arquivo, em outros momentos, ele retorna um html de erro dizendo "dados inválidos" e não me dá o necessário para continuar.

Outra evidência de mal comportamento do backend é o estado do código da página. É um terror, e mostra que ele foi feito com técnicas e tecnologias muito antigas e mal-mantidas. Se o frontend está assim, imagino que o backend siga o exemplo.

Pra piorar, fui ver o site das outras cidades que deveriam ser cópias deste e logo na primeira (Combinado) percebi que o site parecia igual, mas com código levemente diferente.
Evidência de uma atualização ou versão mais nova do framework que existe para um site e não para os outros.

Outra cidade (Aurora do Tocantins), outro site semelhante, mas com código levemente diferente dos dois anteriores.

Outras evidências disso são:

Versões de PHP diferentes (7.4.33, 7.4.27, 7.4.23)
Software de servidor diferentes (nginx, Apache)
Redirecionamento para TLS diferentes

Isso indica que seria inviável(?) fazer um BaseSistema que funcione para todos porque cada site requer raspagem diferente.

Nota:
@ogecece mencionou que existem outras possibilidade de generalização que involvem coisas além de simples atributos de classe. Vou mapear o impacto destas para tomarmos uma decisão melhor.

Além disso, me parece inviável prosseguir com a criação do raspador para Lavandeira também, porque não dá pra confiar que o servidor vai responser da mesma maneira dadas requisições iguais.
Tentei relaxar a velocidade da requisições com o "DOWNLOAD_DELAY": 5.0 e não funcionou.
Não testei os outros sites profundamente, então eles ainda tem chances de se comportarem melhor do que Lavandeira.

Nota:
Outra sugestão foi usar um sistema de retry para os casos onde a resposta do servidor seja inesperada. Investigarei também

Também cria métodos abstratos na base que jogam erro

firefueled · 2025-01-21T14:38:55Z

Pessoal, atualizei o raspador base com tudo o que seria necessário para poder baixar todos o diários, ~~sem considerar limites de data e sem detectar diários extra.~~
~~Estes faltantes virão em seguida.~~

~~Fiz isso para deixá-lo num estado bom para vocês me ajudarem.~~

O problema da instabilidade foi resolvido mas o problema da resposta inválida ainda continua, só que agora ela é previsível.
Apesar de previsível, eu não consegui identificar o que no código pode estar causando-a.

Agora, o raspador está falhando previsivelmente da seguinte forma: Caso mais de uma página seja requisitada, apenas os itens da última página serão baixados com sucesso.
Caso apenas uma página seja baixada, todos os itens virão com sucesso.
As falhas são identificadas por requisições à diarioeletronico_form_cliente que retornam 200 OK mas tem como HTML uma mensagem dizendo "Dados Inválidos".
Eu adicionei logging no lugar exato onde isso acontece, na linha 203 de deto.py

Logo, esse comportamento é evidente também no log de coleta.

~~Como o limitador de datas ainda não existe,~~ eu coloquei um limitador baseado na quantidade de páginas consumidas na linha 173. Assim, é mais fácil testar as diferentes situações que descrevi acima.

Podem me dar uma luz sobre o que pode estar ocorrendo?

Continuarei com o desenvolvimento do limitador e detecção de extras em paralelo enquanto vocês dão uma olhada.

firefueled · 2025-01-24T14:05:15Z

Acabei de testar o retry de requisições falhas (que retornam "Dados inválidos") e não tive sucesso.
Fiz algo simples só pra debugar:

        if "Dados inválidos" in response.text:
            retry_request = response.request.copy()
            retry_request.dont_filter = True
            yield retry_request
            return

Isso resultaria num loop infinito caso entre na condição, e foi o que aconteceu.
Todas as requisições que falharam, continuaram falhando nas demais tentativas.

firefueled · 2025-01-28T20:27:36Z

Teoria: Talvez os yield from estejam causando algum comportamento estranho no raspador.

Removi os dois existentes, substituindo-os pelo conteúdo de maybe_crawl_next_page e consume_table_items.

O problema persiste.

firefueled · 2025-01-28T21:06:28Z

Seguindo a teoria de que algo no paralelismo seja a causa do problema, tentei também usar o setting "CONCURRENT_REQUESTS": 1 e nada foi resolvido.

Essa teoria surge do fato que testes da mesma lógica funcionam perfeitamente quando executado no scrapy shell. Executando os mesmos comandos do deto.py, um após outro no scrapy shell, resulta em nenhum dos itens falhando.

Escrevi este código helper para copiar e colar no shell.
Ele tem o mesmo código do deto.py, mas "flattened". Simplificado de forma a remover a lógica desnecessária para o teste.

import datetime
import re

import scrapy
from scrapy import FormRequest
from scrapy.selector import Selector

from gazette.items import Gazette

page_size = 10
total_pages_count = None
script_case_session = None
BASE_URL = "https://lavandeira.to.gov.br/transparencia"

data = {
    "nmgp_parms": "nm_run_menu?#?1?@?nm_apl_menu?#?menu_diarioeletronico?@?script_case_init?#?1",
    "script_case_init": "1",
    "nm_apl_menu": "menu_diarioeletronico",
}

request = FormRequest(
    url=f"{BASE_URL}/diarioeletronico_grid_cliente/",
    formdata=data,
)
fetch(request)

######## parse_table

table_footer = response.xpath(
    "(//table[contains(@class, 'scGridToolbar')]//span)[last()]/text()"
).get()
items_counter_search = re.search(r"(\d+?)\]$", table_footer)

total_pages_count = int(items_counter_search.group(1))


######## consume_table_items

lines = response.xpath('//tr[starts-with(@id, "SC_ancor")]').getall()

# line loop
line = lines[0]

modal_param_search = re.search(
    r"(@SC_par@\d+?@SC_par@diarioeletronico_grid_cliente@SC_par@.+?)'",
    line,
)
modal_params = modal_param_search.group(1)

date_str = (
    Selector(text=line)
    .xpath('//span[starts-with(@id, "id_sc_field_dataedicao_")]/text()')
    .get()
)
doc_date = datetime.datetime.strptime(date_str, "%d/%m/%Y").date()

doc_edition = (
    Selector(text=line)
    .xpath('//span[starts-with(@id, "id_sc_field_numeroedicao_")]/text()')
    .get()
)

item_params = {
    "doc_date": doc_date,
    "doc_edition": doc_edition,
}

modal_url = (
    f"{BASE_URL}/diarioeletronico_form_cliente/?"
    f"nmgp_outra_jan=true&"
    f"nmgp_url_saida=modal&"
    f"SC_lig_apl_orig=diarioeletronico_grid_cliente&"
    f"nmgp_parms={modal_params}"
)

fetch(modal_url)

####### parse_modal_items

"Dados inválidos" in response.text


####### maybe_crawl_next_page

next_page_start = 11

data = {
    "nmgp_opcao": "ajax_navigate",
    "script_case_init": "1",
    "opc": "rec",
    "parm": str(next_page_start),
}

request = FormRequest(
    url=f"{BASE_URL}/diarioeletronico_grid_cliente/",
    formdata=data,
)

fetch(request)

####### parse table

html_text = None
for item in response.json()["setValue"]:
    if item["field"] == "sc_grid_body":
        html_text = item["value"]

response = Selector(text=html_text)

######## consume_table_items

lines = response.xpath('//tr[starts-with(@id, "SC_ancor")]').getall()

# line loop
line = lines[0]

modal_param_search = re.search(
    r"(@SC_par@\d+?@SC_par@diarioeletronico_grid_cliente@SC_par@.+?)'",
    line,
)
modal_params = modal_param_search.group(1)

date_str = (
    Selector(text=line)
    .xpath('//span[starts-with(@id, "id_sc_field_dataedicao_")]/text()')
    .get()
)
doc_date = datetime.datetime.strptime(date_str, "%d/%m/%Y").date()

doc_edition = (
    Selector(text=line)
    .xpath('//span[starts-with(@id, "id_sc_field_numeroedicao_")]/text()')
    .get()
)

item_params = {
    "doc_date": doc_date,
    "doc_edition": doc_edition,
}

modal_url = (
    f"{BASE_URL}/diarioeletronico_form_cliente/?"
    f"nmgp_outra_jan=true&"
    f"nmgp_url_saida=modal&"
    f"SC_lig_apl_orig=diarioeletronico_grid_cliente&"
    f"nmgp_parms={modal_params}"
)

fetch(modal_url)

####### parse_modal_items

"Dados inválidos" in response.text

firefueled added 4 commits December 19, 2024 14:51

Cria raspador inicial para to_lavanderia

9887abd

Itera e baixa todos itens da tabela

deeab9a

Também conserta url removendo espaços e adiciona {"DOWNLOAD_DELAY": 1.0}

Consome páginas além da primeira

6d3bd3e

Cria cópias para outras cidades

75cd088

firefueled added 9 commits December 19, 2024 17:07

Move código para classe BaseDeto

8a7fd70

Atualiza comentários

8e29bb9

Usa métodos override na base para obter dados da página

3c1708e

Implementa overrides em lavandeira e taguatinga

00fd4b7

Implementa overrides em aurora e combinado

57c77a4

Cria raspadores para o resto dos municipios

25c4595

Remove uso de variável global

818177c

Também cria métodos abstratos na base que jogam erro

Refatora list comprehension e comentários

0ecf6bb

Comenta sobre fluxo do raspador

bf04d26

firefueled changed the title ~~Feature/lista municipios tocantins~~ Cria raspador base para DETO e municípios Jan 21, 2025

Detecta edições extra

86e0c75

firefueled added 2 commits January 24, 2025 12:22

Pula itens fora dos limites de data

8479653

Comenta

0d00645

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cria raspador base para DETO e municípios #1336

Cria raspador base para DETO e municípios #1336

firefueled commented Dec 19, 2024

firefueled commented Dec 19, 2024

firefueled commented Jan 21, 2025 •

edited

Loading

firefueled commented Jan 24, 2025

firefueled commented Jan 28, 2025

firefueled commented Jan 28, 2025

Cria raspador base para DETO e municípios #1336

Are you sure you want to change the base?

Cria raspador base para DETO e municípios #1336

Conversation

firefueled commented Dec 19, 2024

Layout do site publicador de diários oficiais

Código da(s) spider(s)

Testes

Verificações

Descrição

firefueled commented Dec 19, 2024

firefueled commented Jan 21, 2025 • edited Loading

firefueled commented Jan 24, 2025

firefueled commented Jan 28, 2025

firefueled commented Jan 28, 2025

firefueled commented Jan 21, 2025 •

edited

Loading