本项目是用于对招标采购导航网的一个基于Selenium的爬虫,目前能够爬取的信息有
- 招标内容
- 项目链接
- 所属地区
- 中标公司
- 中标公司链接
- 发布日期
- 联系人
- 联系电话
- pip通过
requirements.txt
文件安装依赖,同时安装WebDriver
- 在
account.py
中填入账号信息(百度云图像识别模块暂时废弃可不填) - 运行
getcookies.py
获取cookies(cookies需要每天更新) - 运行
pachong.py
爬取数据,数据会自动存储到Result.xls
本爬虫会记录之前爬取的数据并读取已经爬取到的数据,如果需要重新爬取请删除history.txt
文件
本项目由@chaoers和@uniartisan共同完成
本项目遵循GPLV3.0
开源协议