GitHub - lovebaicai/scrapy-redis: scrapy-redis自用修改

自用scrapy-redis，修改源代码，适合自己项目需求

fork scrapy-redis
原项目会持续读取redis数据，不会自动停止。修改源代码，实现读取固定source:start_urls完成后，自动结束爬虫
目前测试可使用20个进程同时抓取30余个平台，读取redis结束后，可自动结束
部署环境：CentOS release 6.9 (Final) + Python3.5
具体实现代码：

# filename: spiders
# linenumber：82
while found < self.redis_batch_size:
    data = fetch_one(self.redis_key)
    if not data:
        # Queue empty.
        #self.crawler.engine.close_spider(self.name, 'finished')
        self.crawler.engine.close_spider(spider=self, reason='queue is empty, the spider close')
        break

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
connection.py		connection.py
defaults.py		defaults.py
dupefilter.py		dupefilter.py
picklecompat.py		picklecompat.py
pipelines.py		pipelines.py
queue.py		queue.py
scheduler.py		scheduler.py
spiders.py		spiders.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

自用scrapy-redis，修改源代码，适合自己项目需求

About

Releases

Packages

Languages

lovebaicai/scrapy-redis

Folders and files

Latest commit

History

Repository files navigation

自用scrapy-redis，修改源代码，适合自己项目需求

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages