Skip to content

Latest commit

 

History

History
33 lines (22 loc) · 949 Bytes

README.md

File metadata and controls

33 lines (22 loc) · 949 Bytes

hive-spider

项目简介

本项目是用于对招标采购导航网的一个基于Selenium的爬虫,目前能够爬取的信息有

  • 招标内容
  • 项目链接
  • 所属地区
  • 中标公司
  • 中标公司链接
  • 发布日期
  • 联系人
  • 联系电话

运行指南

  1. pip通过requirements.txt文件安装依赖,同时安装WebDriver
  2. account.py中填入账号信息(百度云图像识别模块暂时废弃可不填)
  3. 运行getcookies.py获取cookies(cookies需要每天更新)
  4. 运行pachong.py爬取数据,数据会自动存储到Result.xls

关于断点续搜

本爬虫会记录之前爬取的数据并读取已经爬取到的数据,如果需要重新爬取请删除history.txt文件

Contribution

本项目由@chaoers@uniartisan共同完成

LICENSE

本项目遵循GPLV3.0开源协议