GitHub

豆瓣读书爬虫

Python所写，豆瓣读书的爬虫，方便大家搜罗各种美美书！

更新

最近爬下了豆瓣所有的图书信息（3088633本，2138386KB），并做了一个界面方面与数据库交互来搜罗好书。注：这里的代码不是爬下所有书籍所用的代码，仅供参考。有机会的时候再公开代码和爬下的所有数据。

交互界面截图示例：

查询结果截图示例：

更新

最近爬书发现豆瓣的页面规则发生了变化，导致不能爬到评价人数，由此对代码进行了相应的更新，并爬了一些新的数据(并不全)。

实现功能

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封（更新于 2015-5-20）

效果截图

试着小小运行了下，爬了七八万本书，结果在book_list.xlsx中，截图如下：

代码刚写一小时，更多功能有待增加

声明：受@plough同学启发，再其代码基础上进行的创作，感谢@plough

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
screenshots		screenshots
README.md		README.md
book_list-个人管理-时间管理-投资-文化-宗教.xlsx		book_list-个人管理-时间管理-投资-文化-宗教.xlsx
book_list-传记-哲学-编程-创业-理财-社会学-佛教.xlsx		book_list-传记-哲学-编程-创业-理财-社会学-佛教.xlsx
book_list-名著.xlsx		book_list-名著.xlsx
book_list-商业-理财-管理.xlsx		book_list-商业-理财-管理.xlsx
book_list-心理-判断与决策-算法-数据结构-经济-历史.xlsx		book_list-心理-判断与决策-算法-数据结构-经济-历史.xlsx
book_list-思想-科技-科学-web-股票-爱情-两性.xlsx		book_list-思想-科技-科学-web-股票-爱情-两性.xlsx
book_list-摄影-设计-音乐-旅行-教育-成长-情感-育儿-健康-养生.xlsx		book_list-摄影-设计-音乐-旅行-教育-成长-情感-育儿-健康-养生.xlsx
book_list-数学.xlsx		book_list-数学.xlsx
book_list-科幻-思维-金融.xlsx		book_list-科幻-思维-金融.xlsx
book_list-科普-经典-生活-心灵-文学.xlsx		book_list-科普-经典-生活-心灵-文学.xlsx
book_list-计算机-机器学习-linux-android-数据库-互联网.xlsx		book_list-计算机-机器学习-linux-android-数据库-互联网.xlsx
doubanSpider.py		doubanSpider.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

豆瓣读书爬虫

更新

更新

实现功能

效果截图

About

Releases

Packages

Languages

cgbj/DouBanSpider

Folders and files

Latest commit

History

Repository files navigation

豆瓣读书爬虫

更新

更新

实现功能

效果截图

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages