爬取知乎某个问题下面的所有问题,并正则匹配获取关键数据,输出成txt,并输出词云图
顺便我也通过爬虫,爬取了多个盗版视频网站的资源,并尝试用vue.js 写了一个web网站,比较粗糙,基本能用,上面获取爬取的电影,网站基本都有,网站只用于交流与学习,不用作商用 电影网站
我把git获取的资源整合成了一个知乎专辑,部署在知乎推荐top
- apt-get install python3
- apt-get install pip3
- 安装requirements.txt中的依赖库 pip3 install xxxx
-
python3 login.py -g questionId :这一步需要输入注册的电话号码和密码及验证码(服务器请拷贝出来查看)其他登录知乎登录方式请参考的这个git地址
python login.py -g 31537241
获取你有哪些看过五遍以上的电影? 所有回答输出:zhihu.txt这个命令输出的数据是append方式,所以可以多个questionID执行多次
-
python3 zhihu_login.py -o zhihu.txt 输出zhihu.txt 下以《》格式的词,我们统计次数并输出到out_movie.txt 并输出w.png 为词云图
到此获取完毕。