拉勾爬取
使用Python3爬取 Lagou工作数据,得到最新工作信息
- 安装第三方库
python3 -m pip install -r requirements.txt
在Pycharm下运行spider下py文件,信息存储于Excel中
- 运行 m_lagou_spider.py文件,来获取工作数据并生成Excel文件
- 运行 lagou_company_spider.py文件,获取公司详细信息
- 运行 jobdetail_spider.py文件,获取职位详细信息
- 手机的拉钩网站进行搜索爬虫('https://m.lagou.com/search.json?city=……)
- 控制爬取频率,速度相对较慢,爬取一条信息休眠2s
- 爬取时更改UserAgent