Skip to content

AlanConstantine/WebCrawlerforGameofThrones

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scrapy+redis+mongodb分布式爬虫抓取《冰与火之歌》

博客地址

Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》

技术栈

  • Scrapy
  • redis
  • mongodb
  • xpath

环境

  • python3.5.2
  • ubuntu 16.04LTS

思路

master只需要准备redis,slave先将所有的小说章节界面的url抓取下来,通过redis发送到master的内存,再由master分配任务给slave,实现分布式

运行

  • 执行runspider.py
  • master地址在setting.py设置

About

使用Scrapy结合redis和mongodb设计分布式爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages