myCrawler

我的爬虫练习

doubanBook

爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息，若稍加修改，可以爬取任意页数的信息。

bookSpiderXpath

“第一只爬虫”的lxml实现。因为lxml库用C实现，效率很高，而且支持xpath。所以做了一次练习。

bookCrawler2

爬取每个热门标签下的书籍基本信息，存储到MySQL中。因为有些数据的格式不符合要求，实际爬取数量为60000+。稍作修改，可以拓展功能，或者做些其他有趣的事情。

bookCrawler3

上一个爬虫的全面升级。只爬取“编程”标签下的书籍，但这次爬取了书籍详情页面和书籍图片，并且使用了多线程，速度提高很多。

bookSearch

另外，在尝试用wxPython做一个图形化的书籍检索页面，更好地利用爬取成果。目前只做了最简单的实现。

getWebpage

保存指定URL的页面到本地。

qiushibaike

爬取糗事百科的内容，输出到命令行。主要参考http://cuiqingcai.com/990.html ，略作修改。

proxyInfo

爬取某个代理页面的信息，输出到控制台。

srtpInfo

爬取学校网站的srtp讲座信息。

tieba

根据《极客学院》的相关教程实现。使用多线程爬取百度贴吧的帖子信息。涉及到的技术见代码注释。

bdbaike

爬取百度百科10个词条的简介。代码来自慕课网，略作修改。很多地方和之前做过的练习不一样，有一定参考价值。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

myCrawler

doubanBook

bookSpiderXpath

bookCrawler2

bookCrawler3

bookSearch

getWebpage

qiushibaike

proxyInfo

srtpInfo

tieba

bdbaike

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
bdbaike		bdbaike
doubanBook		doubanBook
getWebpage		getWebpage
proxyInfo		proxyInfo
qiushibaike		qiushibaike
srtpInfo		srtpInfo
tieba		tieba
README.md		README.md

masterpy/myCrawler

Folders and files

Latest commit

History

Repository files navigation

myCrawler

doubanBook

bookSpiderXpath

bookCrawler2

bookCrawler3

bookSearch

getWebpage

qiushibaike

proxyInfo

srtpInfo

tieba

bdbaike

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages