-
-
Notifications
You must be signed in to change notification settings - Fork 409
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Feature - Novo spider para Arraial do Cabo - RJ [Fixes #1261] #1275
base: main
Are you sure you want to change the base?
Conversation
start_date = datetime.date(2019, 2, 7) | ||
allowed_domains = ["portal.arraial.rj.gov.br"] | ||
start_urls = ["https://portal.arraial.rj.gov.br/diarios_oficiais_web"] | ||
start_date = date(2019, 5, 7) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Eu também tinha adicionado um trecho de código para parar a paginação caso não houvesse mais necessidade de rodar o scrapping, mas acabei removendo esse trecho.
if publish_date < self.start_date:
return
Percebi que as últimas páginas não estão ordenadas. Isso iria fazer o spider não capturar todos os registros necessários.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Percebi que as últimas páginas não estão ordenadas. Isso iria fazer o spider não capturar todos os registros necessários.
Isso aqui é uma boa discussão. Acho que elas estão ordenadas por uma lógica que não está transparente pra gente. Já vi outros casos que, por erro humano na hora de adicionar a nova edição, o diário mais novo ficou na última página também.
Como as linhas 25 e 26 fazem filtro, imagino que tenha voltado atrás depois dessa conversa e colocado -- até pq a coleta da última edição e a por intervalo não funcionam sem. O que, pro escopo dessa issue, tá certo mesmo. Mas podemos abrir uma issue para conversar sobre melhorar nossas rotinas de "coleta de segurança", o que acham?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
O único filtro que tá sendo feito hoje é pra validar se o registro está dentro do intervalo de datas que estamos olhando. Mas mesmo que a gente queira pegar apenas o registro de um dia específico, o spider vai olhar todas as páginas.
Essa questão da ordenação ajudaria a gente a identificar caso não fosse mais necessário raspar informações. O que ajudaria a diminuir a quantidade de requisições pro site. Por exemplo, se eu vou raspar até o dia X, e eu sei que nessa página eu achei o último registro desse dia, eu posso encerrar o scrapping ali mesmo.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Tava só dando uma olhada na PR, quando lembrei que esse era o caso que estávamos discutindo em #1261 que talvez nem desse pra integrar. Mas parece que a prefeitura corrigiu o site, ne, JP?
Como parei pra olhar, acabei revisando 🙈
Os logs parecem ótimos (uma tistreza aqueles milhares de redirecionamentos - response_status_count/302': 1116
- na coleta completa, mas não tem jeito mesmo, é o site que é feio assim 😿). Só endereçarmos alguns ajustes no código que, por mim, é isso!
Quer complementar com algo, @ayharano?
@trevineju ajustes feitos. Seguem os arquivos de coleta completa após os ajustes: |
Obrigada! Por mim, tá aprovado. Só aguardando Harano comentar também |
Oi @ayharano. Você vê mais algum problema? 🫣 |
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
Novo spider customizado para Arraial do Cabo, conforme #1261. Eu mudei a data de início pois o registro mais antigo que eu consegui encontrar manualmente no site foi em
07/05/2019
.Anexos
Coleta última edição
Coleta intervalo
Coleta completa