Skip to content

hoshumu/hive-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

hive-spider

项目简介

本项目是用于对招标采购导航网的一个基于Selenium的爬虫,目前能够爬取的信息有

  • 招标内容
  • 项目链接
  • 所属地区
  • 中标公司
  • 中标公司链接
  • 发布日期
  • 联系人
  • 联系电话

运行指南

  1. pip通过requirements.txt文件安装依赖,同时安装WebDriver
  2. account.py中填入账号信息(百度云图像识别模块暂时废弃可不填)
  3. 运行getcookies.py获取cookies(cookies需要每天更新)
  4. 运行pachong.py爬取数据,数据会自动存储到Result.xls

关于断点续搜

本爬虫会记录之前爬取的数据并读取已经爬取到的数据,如果需要重新爬取请删除history.txt文件

Contribution

本项目由@chaoers@uniartisan共同完成

LICENSE

本项目遵循GPLV3.0开源协议

About

对招标采购网的爬虫

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages