Skip to content

Python网络爬虫实战--红薯中文网、企名片、汽车之家、有道翻译、知乎

Notifications You must be signed in to change notification settings

caolcx126/ZSpider

 
 

Repository files navigation

PythonSpider

前言

  • 此仓库为本人学习爬虫的总目录,涉及基础JS逆向和APP爬取。
  • 本人已转行,所有项目仅作学习记录,随缘维护。
  • 个人博客:点这里进入

目录

原创工具类

  1. 仓库地址:本仓库文件夹【ToolClass】
  2. 放置资料文件【数据库操作工具类、代理池】

红薯中文网小说(截至2020/1/9测试)

  1. 仓库地址:本仓库文件夹【SweetPotato】
  2. PC端:神魂丹帝
  3. 移动端:神魂丹帝
  4. 分析文章:见浙里
  5. 分析注意:调试JS时面对node环境下不存在window对象,可利用jsdom处理。打印输出的words结果存在差异,一般是同一份代码环境不同导致的,可以从对环境属性的判断进行调试。

企名片项目数据(截至2020/1/13测试)

  1. 仓库地址:本仓库文件夹【qmingpian】
  2. PC端:企名科技
  3. 分析文章:见浙里
  4. 使用说明:首先开启server文件夹下的接口,然后运行run_qmingpian.py。

汽车之家车型配置(截至2020/1/20测试)

  1. 仓库地址:本仓库文件夹【CarHomeConfig】
  2. PC端:汽车之家
  3. 分析文章:见浙里
  4. 使用说明:直接运行run_the_spier文件即可,根据需求可进行扩展。

泰坦尼克号预测决策树(永久有效)

  1. 仓库地址:本仓库文件夹【Titanic】
  2. 分析文章:见浙里

知乎模拟登录(截至2020/3/1测试)

  1. 仓库地址:本仓库文件夹【ZhiHuData】
  2. 分析文章:见浙里
  3. 使用说明:安装Jsdom等所需依赖,启动express服务端,进入util文件夹运行login.py进行模拟登录后生成Cookie文件。

百度、谷歌翻译(截至2020/3/1测试)

  1. 仓库地址:本仓库文件夹【TranslateGUI】
  2. 分析文章:见浙里

粉笔网模拟登录(截至2020/3/1测试)

  1. 仓库地址:本仓库文件夹【FenbiLogin】
  2. 分析文章:见浙里

云片滑动验证码(截至2020/3/1测试)

  1. 仓库地址:本仓库文件夹【YunPian】
  2. 分析文章:见浙里

微博代理池(截至2020/5/10测试)

  1. 仓库地址:本仓库文件夹【WeiBoCookiePool】
  2. 使用说明:
1- 手动录入账号  python runImporter.py

2- 开启Cookie池  python runCookiePool.py

3- 启动爬虫 python begin.py

About

Python网络爬虫实战--红薯中文网、企名片、汽车之家、有道翻译、知乎

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • JavaScript 65.1%
  • Python 34.9%