发现都是换取到token令牌后,然后去访问淘宝进行爬取的,感觉太麻烦了,换了一个比较傻瓜式的方法。 使用java+selenium+swing做的一个小桌面软件,用于爬取淘宝首页数据。
博客地址:笑笑庄
- 运行jdk-8uxxx-windows-x64.exe后,一直点下一步不需要修改
- 修改java文件名后,运行envir.bat即可
- 淘宝账号和淘宝密码是用来登陆账号使用的,可能中途需要输入手机验证码登录,建议第一次先输入验证码后;
- 浏览器、浏览器路径和驱动路径是以谷歌浏览器和火狐浏览器为主。注意浏览器版本要和驱动对应
- chrome浏览器使用chromedriver。
- firefox浏览器使用geckodriver
- 获取接口地址是用来获取查询搜索词汇。
- 提交信息地址是用来将查询到的商品数据上传到平台。
sequenceDiagram
爬虫 ->> 淘宝: 访问淘宝,进行登录
淘宝 -->> 爬虫: 登录成功,进入查询准备
loop 查询
爬虫->> 平台: 给个搜索词汇吧
平台-->>爬虫: 给你个 666 吧
Note right of 平台: 没有词汇要查了,跳出循环
爬虫->> 淘宝: 查询 666 按照销量查询
淘宝-->> 爬虫: 显示结果
爬虫-x 平台: 将结果提交给平台
end