Feature - Novo spider para Arraial do Cabo - RJ [Fixes #1261] #1275

jjpaulo2 · 2024-09-21T03:09:59Z

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

O layout não se parece com nenhum caso da lista de layouts padrão

Código da(s) spider(s)

O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
Explicitar o atributo de classe end_date não se fez necessário.
Não utilizo custom_settings em meu raspador.

Testes

Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

Novo spider customizado para Arraial do Cabo, conforme #1261. Eu mudei a data de início pois o registro mais antigo que eu consegui encontrar manualmente no site foi em 07/05/2019.

Anexos

Coleta última edição

scrapy crawl rj_arraial_do_cabo -a start_date=2024-09-20 -s LOG_FILE=rj_arraial_do_cabo.log -o rj_arraial_do_cabo.csv

Coleta intervalo

scrapy crawl rj_arraial_do_cabo -a start_date=2024-09-01 -a end_date=2024-09-20 -s LOG_FILE=rj_arraial_do_cabo.log -o rj_arraial_do_cabo.csv

Coleta completa

scrapy crawl rj_arraial_do_cabo -s LOG_FILE=rj_arraial_do_cabo.log -o rj_arraial_do_cabo.csv

ayharano · 2024-09-22T13:47:11Z

data_collection/gazette/spiders/rj/rj_arraial_do_cabo.py

-    start_date = datetime.date(2019, 2, 7)
+    allowed_domains = ["portal.arraial.rj.gov.br"]
+    start_urls = ["https://portal.arraial.rj.gov.br/diarios_oficiais_web"]
+    start_date = date(2019, 5, 7)


Iterando com o site passado, pude ver que o primeiro diário disponível seria 11 de abril de 2019

Como você determinou a data de 7 de maio de 2019?

Apesar da busca, o de maio é o primeiro disponível?

De fato! Peguei essa data "no olho" kkkk
Mudei o start_date para 2019-01-01 e rodei um scrapping completo, e de fato a data mais antiga é 2019-04-11.

Eu também tinha adicionado um trecho de código para parar a paginação caso não houvesse mais necessidade de rodar o scrapping, mas acabei removendo esse trecho.

if publish_date < self.start_date: return

Percebi que as últimas páginas não estão ordenadas. Isso iria fazer o spider não capturar todos os registros necessários.

Percebi que as últimas páginas não estão ordenadas. Isso iria fazer o spider não capturar todos os registros necessários.

Isso aqui é uma boa discussão. Acho que elas estão ordenadas por uma lógica que não está transparente pra gente. Já vi outros casos que, por erro humano na hora de adicionar a nova edição, o diário mais novo ficou na última página também.

Como as linhas 25 e 26 fazem filtro, imagino que tenha voltado atrás depois dessa conversa e colocado -- até pq a coleta da última edição e a por intervalo não funcionam sem. O que, pro escopo dessa issue, tá certo mesmo. Mas podemos abrir uma issue para conversar sobre melhorar nossas rotinas de "coleta de segurança", o que acham?

O único filtro que tá sendo feito hoje é pra validar se o registro está dentro do intervalo de datas que estamos olhando. Mas mesmo que a gente queira pegar apenas o registro de um dia específico, o spider vai olhar todas as páginas.

Essa questão da ordenação ajudaria a gente a identificar caso não fosse mais necessário raspar informações. O que ajudaria a diminuir a quantidade de requisições pro site. Por exemplo, se eu vou raspar até o dia X, e eu sei que nessa página eu achei o último registro desse dia, eu posso encerrar o scrapping ali mesmo.

trevineju · 2024-09-23T16:51:19Z

@jjpaulo2, só uma dica: pra vincular a PR à issue que está resolvendo, a mensagem "Fixes #1261" precisa estar no corpo da PR, no título não funciona. (não me pergunte pq hahahaha)

vinculei manualmente agora

trevineju

boa, @jjpaulo2 e @ayharano!

Tava só dando uma olhada na PR, quando lembrei que esse era o caso que estávamos discutindo em #1261 que talvez nem desse pra integrar. Mas parece que a prefeitura corrigiu o site, ne, JP?

Como parei pra olhar, acabei revisando 🙈

Os logs parecem ótimos (uma tistreza aqueles milhares de redirecionamentos - response_status_count/302': 1116 - na coleta completa, mas não tem jeito mesmo, é o site que é feio assim 😿). Só endereçarmos alguns ajustes no código que, por mim, é isso!

Quer complementar com algo, @ayharano?

data_collection/gazette/spiders/rj/rj_arraial_do_cabo.py

jjpaulo2 · 2024-09-23T19:40:10Z

@trevineju ajustes feitos.

Seguem os arquivos de coleta completa após os ajustes:

trevineju · 2024-09-23T20:11:04Z

Obrigada! Por mim, tá aprovado. Só aguardando Harano comentar também

jjpaulo2 · 2024-10-16T18:50:56Z

Oi @ayharano. Você vê mais algum problema? 🫣

jjpaulo2 added 3 commits September 20, 2024 23:48

feat: novo spider custom para arraial do cabo (okfn-brasil#1261)

97b8cb4

style: melhorando a formatação

d2f42dd

feat: otimizando a quantidade de requisições

893a02d

jjpaulo2 mentioned this pull request Sep 21, 2024

[Novo spider]: Arraial do Cabo - RJ #1261

Open

1 task

ayharano reviewed Sep 22, 2024

View reviewed changes

fix: data inicial do spider

dd5b2fe

jjpaulo2 requested a review from ayharano September 22, 2024 18:59

trevineju linked an issue Sep 23, 2024 that may be closed by this pull request

[Novo spider]: Arraial do Cabo - RJ #1261

Open

1 task

trevineju requested changes Sep 23, 2024

View reviewed changes

chore: ajustes do review

0a8d732

jjpaulo2 requested a review from trevineju September 23, 2024 19:40

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature - Novo spider para Arraial do Cabo - RJ [Fixes #1261] #1275

Feature - Novo spider para Arraial do Cabo - RJ [Fixes #1261] #1275

jjpaulo2 commented Sep 21, 2024 •

edited

Loading

ayharano Sep 22, 2024

jjpaulo2 Sep 22, 2024 •

edited

Loading

jjpaulo2 Sep 22, 2024 •

edited

Loading

trevineju Sep 23, 2024 •

edited

Loading

jjpaulo2 Sep 25, 2024

trevineju commented Sep 23, 2024

trevineju left a comment

jjpaulo2 commented Sep 23, 2024

trevineju commented Sep 23, 2024

jjpaulo2 commented Oct 16, 2024

Feature - Novo spider para Arraial do Cabo - RJ [Fixes #1261] #1275

Are you sure you want to change the base?

Feature - Novo spider para Arraial do Cabo - RJ [Fixes #1261] #1275

Conversation

jjpaulo2 commented Sep 21, 2024 • edited Loading

Layout do site publicador de diários oficiais

Código da(s) spider(s)

Testes

Verificações

Descrição

Anexos

Coleta última edição

Coleta intervalo

Coleta completa

ayharano Sep 22, 2024

Choose a reason for hiding this comment

jjpaulo2 Sep 22, 2024 • edited Loading

Choose a reason for hiding this comment

jjpaulo2 Sep 22, 2024 • edited Loading

Choose a reason for hiding this comment

trevineju Sep 23, 2024 • edited Loading

Choose a reason for hiding this comment

jjpaulo2 Sep 25, 2024

Choose a reason for hiding this comment

trevineju commented Sep 23, 2024

trevineju left a comment

Choose a reason for hiding this comment

jjpaulo2 commented Sep 23, 2024

trevineju commented Sep 23, 2024

jjpaulo2 commented Oct 16, 2024

jjpaulo2 commented Sep 21, 2024 •

edited

Loading

jjpaulo2 Sep 22, 2024 •

edited

Loading

jjpaulo2 Sep 22, 2024 •

edited

Loading

trevineju Sep 23, 2024 •

edited

Loading