这是一个示例的仓库,以前是用Python写爬虫,积累了一定经验后转成Golang,并发快,开发快,理解舒畅。
- 依赖https://github.com/hunterhug/GoSpider,请下载它到GOPATH
- 示例仅供学习,爬虫有风险,如果太暴力,会给别人带来损失,在此申明不承担相应责任。
下载:
go get -u -v github.com/hunterhug/GoSpiderExample
如果下载过慢,请手动下载,包依赖有问题,请将https://github.com/hunterhug/GoSpider/tree/master/vendor 下的包移动到GOPATH
项目结构
-- doc 杂
-- jiandan 煎蛋文章爬虫
--main 入口
-- jiandanmeizi 煎蛋图片爬虫
--main.go 简单
-- pedaily 投资界爬虫
-- taobao 万能图片助手(天猫淘宝额外处理)
-- zhihu 知乎小助手
taobao抓取淘宝天猫商品页图片|任意网址也可以,万能图片助手!
写入taobao.csv:
https://detail.tmall.com/item.htm?id=523350171126&skuId=3120562159704,tmall
https://item.taobao.com/item.htm?id=40066362090,taobao
#https://item.taobao.com/item.htm?id=40066362090,taobao
链接分为两部分,前面是链接,后面是图片保存的目录名,#
表示忽略这一个网站
跑起来,-config
后面是taobao.csv
的位置,如果在/data/app
下,那么需-config=/data/app/taobao.csv
, 相对路径时路径是相对于跑程序的地方
go run taobao.go -config=taobao.csv
taobao.exe -config=taobao.csv
pedaily.cn投资界爬虫,投资专用!
搜索:http://zdb.pedaily.cn/company/w
深圳市创新投资集团有限公司 http://zdb.pedaily.cn/company/show3392/ <br/>
广东中科招商创业投资管理有限责任公司 http://zdb.pedaily.cn/company/show10932/<br/>
上海复星创富投资管理股份有限公司 http://zdb.pedaily.cn/company/show6807/<br/>
江苏毅达股权投资基金管理有限公司 http://zdb.pedaily.cn/company/show787/<br/>
盛世景资产管理集团股份有限公司 http://zdb.pedaily.cn/company/show1944/<br/>
朱雀股权投资管理股份有限公司 http://zdb.pedaily.cn/company/show7135/<br/>
浙商创投股份有限公司 http://zdb.pedaily.cn/company/show5998/<br/>
深圳同创伟业资产管理股份有限公司 http://zdb.pedaily.cn/company/show2723/
1. companysearch.go可通过关键字查找一家机构的简单信息
2. companytouzi.go可通过公司代号查找一家机构的投资情况
taobaoscrapy淘宝天猫搜索框商品千里寻踪待做,重构Python版本可选抓取图片并保存信息到csv,还没写。
4. 分布式煎蛋文章助手(已经移动到jiandan项目)
多浏览器持久化cookie分布式爬虫爬取数据,使用到redis,mysql,将网页数据保存在磁盘中,详情页解析后存入数据库。中级示例!
结果,总共抓取了56,961 篇文章
1. cont.go编辑配置,`RootDir = "E:\\jiandan"`为数据目录
2. 进main文件夹运行
3. 数据保存在data和数据库中
4. 重抓要删除Redis数据库和文件夹
详细 说明见http://www.lenggirl.com/spider/jiandan.html
jiandan煎蛋项目爬图片,啥Redis都不用,准备好网速就行!
6. 知乎小助手(已经移动到zhihuxx项目)
示例 防盗链版本HTML
按问题ID抓答案,按收藏夹批量抓答案
-----------------
知乎问题信息小助手
功能:
1. 可选抓取图片
2. 抓取答案
3. 可选关注小伙伴
选项:
1. 从收藏夹https://www.zhihu.com/collection/78172986批量获取很多问题答案
2. 从问题https://www.zhihu.com/question/28853910批量获取一个问题很多答案
请您按提示操作(Enter)!答案保存在data文件夹下!
因为知乎防盗链,放在你的网站上是看不见图片的!
但是本地查看是没问题的!可选择防盗链生成HTML
如果失效了请往exe同级目录cookie.txt
增加cookie
你亲爱的萌萌~
太阳萌飞了~~~
-----------------
萌萌:你要发布到自己的网站上吗(JS解决防盗链)Y/N(默认N)
n
萌萌:要抓取图片吗Y/N(默认N)
n
萌萌:从收藏夹获取按1,从问题获取按2(默认)
2
萌萌说亲爱的,因为回答实在太多,请限制获取的回答个数:30(默认)
3
萌萌:请输入问题ID:
直接点击exe即可运行,exe工具下载见:百度云盘
ooxx.exe为爬取煎蛋妹纸图
wuliao.exe为爬取煎蛋无聊图
taobao.exe为爬取天猫淘宝等网址图片,需编辑taoban.csv
zhihu.exe为抓取知乎问题下的回答,包括图片
如果你觉得项目帮助到你,欢迎请我喝杯咖啡
如果你需要定制版爬虫小工具,欢迎写好需求后,联系我!按开发时间收费.