Python Selenium 有颜色的爬虫
看了一下github里的其他项目,最大的毛病是readme不行,项目不够简单好用,我一个技术垃圾想直接用感觉不行。因此决定更新Readme,表现出本项目的巨大优势,以迎合潜在市场,最终获取更多开源贡献、建议和更新。 2022.11.02
随着扫黄越来越严格,现在网络上的东西都有隐形的时效性了。
开发了一套通用的网页爬虫工具
- 平台:windows。
- IDE: Pycharm(完全免费,功能强大,UI良好,业界公认第一)
- 爬取网站极多。包括:百度贴吧、QQ空间、小红书、抖音、tiktok、B站、知乎、电影网站、twitter、youtube等等。
- 开发了一套通用的网页爬虫工具,一份代码,实现了到处乱爬
- selenium档的福音。(封装了selenium库,从此用python开浏览器窗口模拟真实用户,击败一切反爬手段,一百年内消灭“道高一尺,魔高一丈”的爬虫战争
- 目前已经下载了抖音2TB,B站8TB的视频。
- 纯python,单一语言,代码用到的高级(×)复杂(√)功能全无,无多线程,async,等看似复杂和高级的数据结构实则难以维护和底层的代码逻辑涉及,即使有笔者也已经全部简单封装并通过测试。甚至由此形成了一个
- python代码极其简单,跟伪代码一样容易读懂。注释量高达70%
- 虽然没有用到一句asyc OR multiprocess/thread,但一样实现并行功能。
- 可视化和日志程度高的同时,
- 项目体量小,是小屎山,同时代码高度解耦
- 部分工作支持后台运行(你可以边干别的事边后台完全自动化)
- 下载与VPN并不冲突
- 下载工作速度完全可实时快速调控。(打开关闭正在运行的程序即可)
- 项目主人(每天)更新开发代码,开源社区回复及时