Anti-Anti-Spider

author@luyishisi & leng-yue

2016-10-24 begin #2017-5-8 end

特别说明：这个项目最初源于对自己爬虫代码的整理以及技术规整，因此部分爬虫源码可能因为网站改版已经不可用，验证码识别方面因为我改良版本用于工作中不可开源，因此采用熊猫的cnn模型以及冷月的滑动破解模型，上传前均亲测可用，且已得其本人授权。

仓库网址位于https://github.com/luyishisi/Anti-Anti-Spider 欢迎stat

本项目由URLTEAM维护

作者博客 https://www.urlteam.org

项目简介：

运用请求伪造，浏览器伪造,浏览器自动化，图像处理，ip处理等方式进行反爬虫技术的通用化代码库,方便未来快速开发。

为以后的采集任务快速开展留下基础代码。

如今项目会包含多项技术的样例代码.

项目起因

本身是想做一个反爬虫的技术攻关站点，如果在总结诸多技术中发觉可以将反反爬虫技术直接保留与代码中。

在之后采集需要时能快速有效的测试该站点具有怎样的反爬特性，并且可以快速的进行代码复用

你可以做什么：提交你觉得难以采集的网站联系方式： [email protected]

项目结构树:（有待更新）

https://github.com/luyishisi/Anti-Anti-Spider/blob/master/tree.txt

重点项目：

1:验证码 {亚马逊验证码破解，knn，svm，Tensorflow自动生成验证码并大量训练从而破解--98%成功率}

2:代理 {抓取西刺代理，以及一个高可用的国外代理网站，并存入数据库，从而随时调用}

3:代码模板 {多线程优化，百度地图可视化采集，聚焦爬虫，selenium模拟登陆，域名爬虫}

5:爬虫项目源码 {优酷网，腾讯视频，推特，拉钩网，百度地图，妹子图网，百家号，百度百科，csdn，新浪微博, 淘宝采集}

6:ip更换技术 {代理，tor，adsl}

7:请求伪造 {phantomjs，requests，selenium}

8:phantomjs {伪造请求头，获取页面截图，获取页面源码，设置超时}

9:selenium {伪造请求头，支付宝模拟登陆}

UrlSpider {项目中常用的采集代码样本，经过多线程数据库操作优化，最高速度6kw/d}

Name		Name	Last commit message	Last commit date
Latest commit History 141 Commits
1.验证码		1.验证码
10.selenium		10.selenium
11.百度爬虫系列		11.百度爬虫系列
12.滑动验证码破解		12.滑动验证码破解
13.python_tool_tutorial		13.python_tool_tutorial
2.(免费)代理抓取		2.(免费)代理抓取
3.代码模板		3.代码模板
5.极验验证码资源汇总		5.极验验证码资源汇总
6.爬虫项目源码		6.爬虫项目源码
7.IP更换技术		7.IP更换技术
8.请求伪造		8.请求伪造
9.phantomjs		9.phantomjs
UrlSpider		UrlSpider
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
test		test
tree.txt		tree.txt
uptime.py		uptime.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Anti-Anti-Spider

author@luyishisi & leng-yue

2016-10-24 begin #2017-5-8 end

About

Releases

Packages

Languages

tom0932/Anti-Anti-Spider

Folders and files

Latest commit

History

Repository files navigation

Anti-Anti-Spider

author@luyishisi & leng-yue

2016-10-24 begin #2017-5-8 end

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages