Skip to content

mflmn/yunSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

百度云爬虫

网站:http://www.zgdgude.cn/

安装使用

  1. 安装依赖
  • go get github.com/go-sql-driver/mysql
  • go get github.com/siddontang/go/log
  • go get github.com/garyburd/redigo/redis
  • go get github.com/Unknwon/goconfig
  1. 修改config.ini配置文件中你自己的MySQL和Redis配置(可以不配Redis),Redis不配或者错误会默认将已经爬取的uk保存到hasIndexKeys.txt文件中,这样做防止重复爬同一位用户多次
  2. 创建database名为baidu,然后执行baidu.sql
  3. go run spider.go (当然也可以编译后运行,此时config.ini记得也复制到编后后的文件目录下,然后运行)
  4. 爬取到数据只需替换链接中uk,shareid或者album_id即可访问

最近在找实习工作,有点无聊,没事搞,研究了下爬百度网盘的用户分享

上面3个连接请求必须带上 ("Referer", "https://yun.baidu.com/share/home?uk=23432432#category/type=0"),uk多少无所谓,否则请求不到json数据, 获取用户订阅和获取用户粉丝每次请求一次休眠2s的话可以无限制请求,对ip没要求,获取用户分享超坑,一个ip只能请求10次,并且休眠也没用. 因为没有那么多ip,我就去研究手机版的用户分享,手机版获取用户分享可以一次性连续请求60次,60次后必须休眠35s左右在继续请求就可以,不会像pc版那样必须换ip, 但是手机版只能请求网页源码,然后用正则进行匹配.

java版本

License

yunSpide source code is licensed under the Apache Licence, Version 2.0 (http://www.apache.org/licenses/LICENSE-2.0.html).

About

百度云网盘爬虫

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Go 100.0%