Skip to content

搭建分布式爬虫爬取北京证券网全站新闻数据

Notifications You must be signed in to change notification settings

yangshenchang/bjzq

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

bjzq

搭建分布式爬虫爬取北京证券网全站新闻数据

该项目使用我自己的电脑作为master主机,使用三台虚拟机作为slave从机,搭建分布式,主机只负责维护redis队列和分别配爬去任务, 从机负责爬取数据并保存到mongodb数据库,境内过较长时间运行,该爬虫总共抓取到99813条新闻数据,成功爬取该网站全站数据。

部分settings代码如下:

指定使用scrapy-redis的去重

DUPEFILTER_CLASS = "scrapy_redis.dupefilters.RFPDupeFilter"

指定使用scrapy-redis的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

允许暂停

SCHEDULER_PERSIST = True

redis数据库连接,该处的redis_host使用自己本机的IP地址

REDIS_HOST = '192.168.0.117'

REDIS_PORT = 6379

About

搭建分布式爬虫爬取北京证券网全站新闻数据

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages