Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
ipproxytool		ipproxytool
server		server
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
__init__.py		__init__.py
config.py		config.py
main.py		main.py
proxy.py		proxy.py
runserver.py		runserver.py
runspider.py		runspider.py
runvalidator.py		runvalidator.py
scrapy.cfg		scrapy.cfg
singleton.py		singleton.py
sqlhelper.py		sqlhelper.py
utils.py		utils.py
weixin.png		weixin.png

Repository files navigation

IPProxyTool

使用 scrapy 爬虫抓取代理网站，获取大量的免费代理 ip。过滤出所有可用的 ip，存入数据库以备使用。

####个人项目欢迎加微信吐槽

##运行环境 python 2.7.12

###运行依赖包

scrapy
BeautifulSoup
requests
mysql-connector-python
web.py
scrapydo
lxml

###Mysql 配置

安装 Mysql 并启动
安装 mysql-connector-python 安装参考

在 config.py 更改数据库配置

		database_config = {
    		'host': 'localhost',
    		'port': 3306,
    		'user': 'root',
    		'password': '123456',
		}

##下载使用将项目克隆到本地

$ git clone https://github.com/awolfly9/IPProxyTool.git

进入工程目录

$ cd IPProxyTool

分别运行代理抓取、验证、服务器脚本

$ python runspider.py

$ python runvalidator.py

$ python runserver.py

##项目说明 ####抓取代理网站所有抓取代理网站的代码都在 proxy
#####扩展抓取其他的代理网站 1.在 proxy 目录下新建脚本并继承自 BaseSpider
2.设置 name、urls、headers
3.重写 parse_page 方法，提取代理数据
4.将数据存入数据库具体可以参考 ip181 kuaidaili
5.如果需要抓取特别复杂的代理网站，可以参考peuland

#####修改 runspider.py 导入抓取库，添加到抓取队列

运行 runspider.py 脚本开始抓取代理网站

$ python runspider.py

####验证代理 ip 是否有效目前验证方式：利用将抓取到的代理 ip 设置成 scrapy 请求的代理，然后去请求目标网站，如果目标网站在合适的时间内成功返回，那么这个则认为这个代理 ip 有效。如果没有在合适的时间返回成功的数据，则认为这个代理 ip 无效。
一个目标网站对应一个脚本，所有验证代理 ip 的代码都在 validator #####扩展验证其他网站 1.在 validator 目录下新建脚本并继承 Validator
2.设置 name、timeout、urls、headers
3.然后调用 init 方法
4.如果需要特别复杂的验证方式，可以参考 assetstore
#####修改runvalidator.py 导入验证库，添加到验证队列运行 runvalidator.py 脚本开始抓取代理网站

$ python runvalidator.py

###获取代理 ip 数据服务器在 config.py 中修改启动服务器端口配置 data_port，默认为 8000 启动服务器

$ python runserver.py

服务器提供接口 ####获取 http://127.0.0.1:8000/select?name=douban

参数

Name	Type	Description
name	str	数据库名称

####删除 http://127.0.0.1:8000/delete?name=free_ipproxy&ip=27.197.144.181

参数

Name	Type	Description
name	str	数据库名称
ip	str	需要删除的 ip

####插入 http://127.0.0.1:8000/insert?name=douban&ip=555.22.22.55&port=335&country=%E4%B8%AD%E5%9B%BD&anonymity=1&https=yes&speed=5&source=100

参数

Name	Type	Description	是否必须
name	str	数据库名称	是
ip	str	ip 地址	是
port	str	端口	是
country	str	国家	否
anonymity	int	1:高匿,2:匿名,3:透明	否
https	str	yes:https,no:http	否
speed	float	访问速度	否
source	str	ip 来源	否

##TODO

添加服务器获取接口更多筛选条件
添加 https 支持
添加检测 ip 的匿名度
添加抓取更多免费代理网站
分布式部署项目

##参考

IPProxyPool

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

IPProxyTool

About

Releases

Packages

Languages

License

starim00/IPProxyTool

Folders and files

Latest commit

History

Repository files navigation

IPProxyTool

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages