基于Scrapy的Python3分布式淘宝爬虫

Items.py : 定义爬取的数据
pipelines.py : 后处理(Post-process)，存储爬取的数据
taobao.py : 爬虫程序
settings.py : Srapy设定，请参考内置设定参考手册
代码的详细分析在我的个人博客 www.liangtianming.com
问题和讨论可以发到我的邮箱 [email protected]
不定期更新
2017.7.23

实现功能：

输入关键字和搜索页数，获取在淘宝上搜索结果中所有商品的标题、链接、原价、现价、商家地址以及评论数量,并将数据存入MongoDB数据库中

使用教程：

1. 运行前你需要安装并配置好环境：

Python3
Scrapy
MongoDB
redis

2. 打开MongoDB和redis服务

3. 下载并解压，把文件夹名改为taobao_spider

4. 打开多个cmd，把路径都切换到taobao_spider目录下，输入 scrapy crawl taobao --nolog

C:\Users>f:

F:\>cd taobao_spider

F:\taobao_spider>scrapy crawl taobao --nolog

5. 打开cmd，把路径切换到redis目录下，提交start_url

C:\Users>d:

D:\>cd redis

D:\Redis>redis-cli

127.0.0.1:6379> LPUSH TaobaoSpider:start_urls http://taobao.com/

6. 在终端中可看见爬取过程，数据存储在MangoDB的tbdb库的taobao表中（存储位置可在pipelines.py中修改）

7. 程序结束后，清除redis中的缓存

127.0.0.1:6379> flushdb

下面是一些爬取结果示例

单个终端：

多个终端：

数据库：

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.idea		.idea
taobao_spider		taobao_spider
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

基于Scrapy的Python3分布式淘宝爬虫

实现功能：

使用教程：

1. 运行前你需要安装并配置好环境：

2. 打开MongoDB和redis服务

3. 下载并解压，把文件夹名改为taobao_spider

4. 打开多个cmd，把路径都切换到taobao_spider目录下，输入 scrapy crawl taobao --nolog

5. 打开cmd，把路径切换到redis目录下，提交start_url

6. 在终端中可看见爬取过程，数据存储在MangoDB的tbdb库的taobao表中（存储位置可在pipelines.py中修改）

7. 程序结束后，清除redis中的缓存

下面是一些爬取结果示例

About

Releases

Packages

Languages

yaclong/Taobao_Spider

Folders and files

Latest commit

History

Repository files navigation

基于Scrapy的Python3分布式淘宝爬虫

实现功能：

使用教程：

1. 运行前你需要安装并配置好环境：

2. 打开MongoDB和redis服务

3. 下载并解压，把文件夹名改为taobao_spider

4. 打开多个cmd，把路径都切换到taobao_spider目录下，输入 scrapy crawl taobao --nolog

5. 打开cmd，把路径切换到redis目录下，提交start_url

6. 在终端中可看见爬取过程，数据存储在MangoDB的tbdb库的taobao表中（存储位置可在pipelines.py中修改）

7. 程序结束后，清除redis中的缓存

下面是一些爬取结果示例

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages