豆瓣爬虫

豆瓣爬虫是一个基于爬取豆瓣各种信息的项目

项目初衷

因为之前在学习并发编程，拜读了《并发变成实战》以及《并发编程艺术》后决定写个项目来巩固一下学到的东西，所以就有写一个多线程爬虫的项目的想法，当然还有另一个原因我觉得爬取大量别人数据好爽啊（难道我是潜在的偷窥狂？！）

V0.0.1爬取豆瓣电影

当前版本可以爬取豆瓣电影，后续计划添加音乐，书籍等爬虫功能，最终目标完成一个通用功能只需要一些简单的配置就可以爬取任何信息，甚至其他网站信息（注意：发现豆瓣反扒方式相当无解，无论你以什么方式去查询什么信息只展示前500，所以只能通过各种标签尽可能的爬取更多的信息）>

项目主要功能特点

使用HTTP代理
项目首先会到ip网站获取大量ip，使用的这些ip创建虚拟代理突破网页单个代理访问限制问题
编写的时候我特意将爬取代理的功能和其他功能解耦了，所以这个功能可以单独拿出来用哦
多线程，高并发进行,效率更快
可拓展新较好，可以在原有代码基础上拓展其他爬虫项目

爬取的数据

下面是爬取的电影信息（部分信息需要深度爬虫才能获取，本项目中该功能已实现，但暂时未去爬取）

开发工具以及框架

java开发工具：IntelliJ IDEA
项目管理：Maven
版本管理：GitHub
使用数据库： MYSQL5.7
持久层框架：Mybatis
第三方库
HttpClient4.5-网络请求
Jsoup-html标签解析
c3p0 数据库连接池

持久化配置

本项目使用MYSQL数据库来保存数据，运行项目之前请自行安装mysql，并在jdbc.properties中配置自己的数据库信息

Quick Start

Run With StartClass

Name		Name	Last commit message	Last commit date
Latest commit History 88 Commits
douban-spider		douban-spider
.gitignore		.gitignore
README.md		README.md
每日计划.txt		每日计划.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

豆瓣爬虫

项目初衷

V0.0.1爬取豆瓣电影

项目主要功能特点

爬取的数据

开发工具以及框架

持久化配置

Quick Start

流程图

About

Releases

Packages

Languages

JonyShan/douban-spider

Folders and files

Latest commit

History

Repository files navigation

豆瓣爬虫

项目初衷

V0.0.1爬取豆瓣电影

项目主要功能特点

爬取的数据

开发工具以及框架

持久化配置

Quick Start

流程图

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages