百度指数更新,原有的异步拼图变为了更简单的数字解密,需要使用python3.5以上版本运行
pip install -r requirement.txt
首先使用浏览器登录百度指数,得到cookie字符串,保存为以.cookie结尾的文件,放在cookie文件夹下,多个cookie随机选择 然后执行命令
python app.py --help
出现下面的参数帮助
Options:
-k TEXT 搜索词列表,以,分割
-s TEXT 自定义搜索开始的日期
-e TEXT 自定义搜索结束的日期
-f TEXT 搜索词文件
-d TEXT 搜索日期间隔(不传递开始日期的时候默认倒退d天到现在的期间),不传递的话默认只运行一次,可以传递数字例如30
-r INTEGER 搜索间隔,搜索的太快会被封号
--help Show this message and exit.
指定词和开始时间
python app.py -k keyword -s 2018-10-10 -e 2018-10-15
指定搜索词文件名和开始时间
python app.py -f keywords.json -s 2018-10-10 -e 2018-10-15
指定开始时间和日期间隔
python app.py -k keyword -s 2018-10-10 -d 30 #搜索从2018-10-10及之后30天的热度
指定结束日期和日期间隔
python app.py -k keyword -e 2018-10-10 -d 30 #搜索到2018-10-10及之前30的热度
其中-k 和-f参数 可以替换,若只想执行一次,请指定开始和结束日期,若想每天抓取一次请输入-d 参数指定间隔
在脚本中预留了存储定义,你可以根据自己的需求选择存储到redis或其他数据库等
async def save(self, keyword, rst, start, end):
pass
本代码没有提供登录,使用者可以使用selenium模拟登录,或者其他脚本登录,一般登录需要注意图片验证码(可破),和手机验证码(尤其是香港或者其他地区的ip登录会经常出现验证码) 简单的方法是保存cookie文件,一周更新一次