豆瓣爬虫是一个基于爬取豆瓣各种信息的项目
因为之前在学习并发编程,拜读了《并发变成实战》以及《并发编程艺术》后决定写个项目来巩固一下学到的东西,所以就有写一个多线程爬虫的项目的想法,当然还有另一个原因我觉得爬取大量别人数据好爽啊(难道我是潜在的偷窥狂?!)
当前版本可以爬取豆瓣电影,后续计划添加音乐,书籍等爬虫功能,最终目标完成一个通用功能只需要一些简单的配置就可以爬取任何信息,甚至其他网站信息(注意:发现豆瓣反扒方式相当无解,无论你以什么方式去查询什么信息只展示前500,所以只能通过各种标签尽可能的爬取更多的信息)>
- 使用HTTP代理
项目首先会到ip网站获取大量ip,使用的这些ip创建虚拟代理突破网页单个代理访问限制问题
编写的时候我特意将爬取代理的功能和其他功能解耦了,所以这个功能可以单独拿出来用哦 - 多线程,高并发进行,效率更快
- 可拓展新较好,可以在原有代码基础上拓展其他爬虫项目
- java开发工具:IntelliJ IDEA
- 项目管理:Maven
- 版本管理:GitHub
- 使用数据库: MYSQL5.7
- 持久层框架:Mybatis
- 第三方库
HttpClient4.5-网络请求
Jsoup-html标签解析
c3p0 数据库连接池
- 本项目使用MYSQL数据库来保存数据,运行项目之前请自行安装mysql,并在jdbc.properties中配置自己的数据库信息
Run With StartClass