- 抓取网站数据 标签 文章 标签和文章的关系
- 把抓下来的数据保存到数据库(mysql)
- 开发一个网站展示这些数据
- 让用户可以登录,可以选择自己喜欢的标签
- 如果新的文章抓取下来了,需要把这个文章通过邮件推送给喜欢的人。
- 还有一个全文本检索的功能,保存文章的时候也会向elastic存一分,方便以后检查.
- 如何把这个爬虫项目布署到阿里云上,如何访问?
- 所有的标签
https://juejin.im/subscribe/all
保存到标签仓库 - 抓取标签下面的文章
https://juejin.im/tag/前端
把文章列表保存到数据库中,并且和标签进行关联 - 抓取文章的正文
https://juejin.im/post/5b762bace51d45556f41c431