Skip to content

Latest commit

 

History

History
executable file
·
61 lines (45 loc) · 5 KB

README.md

File metadata and controls

executable file
·
61 lines (45 loc) · 5 KB

为何选择本项目 ⭐

  • 功能全面:包括了用户信息抓取、指定关键字搜索结果增量抓取、指定用户主页所有微博抓取、评论抓取和转发关系抓取等
  • 数据全面:PC端展现的数据量比移动端更加丰富。并且相比于其它同类项目对微博的简单分析,本项目做了大量细致的工作, 比如不同domain不同用户的解析策略、不同domain不同用户的主页分析策略等
  • 稳定!项目可以长期稳定运行。
    • 为了保证程序能长期稳定运行,数据所有的网络请求都是通过抓包手动分析的,未用任何自动化工具,包括模拟登陆! 从另一个方面来说,抓取速度也是比较有保证的
    • 通过合理的阈值设定,账号可以保证安全。但是不推荐用户使用自己的常用账号
    • 即使账号不可用或者登陆失败,项目都对其做了处理(智能冻结账号,出错重试等),以保证每次请求都是有效的,并及时把错误反馈给用户
    • 通过大量的异常检测和处理,几乎捕获了所有的解析和抓取异常。编写了大量的解析代码来获取足够全面的信息
  • 复用性和二次开发性很好。项目很多地方都有详细的代码注释,方便阅读。即使本项目不能完全满足你 对微博数据采集和分析的需求,你也可以自己在该项目的基础上做二次开发,项目已经在微博抓取和各个 模版解析上做了大量工作。
  • 由于本项目与本人实际工作有关联(代码并不是工作中使用的代码),所以可以放心它会长期更新。目前已经迭代一年有余了。
  • 丰富文档支持:请点击wiki查看所有文档。如果文档仍然不能解 决你的问题,欢迎提issue,维护者看到后都会积极回答,也可以通过加QQ群(群号:499500161, 暗号:微博爬虫,务必备注加群信息,否则 视为广告处理)进行交流。

配置和使用 ✨

关于详细配置请大家耐心阅读这篇文档及该文档提及的相关文档。

常见问题 ❓

项目常见问题请查看项目使用常见问题

其它说明 ❗

一些补充说明请查看项目补充说明

TODO 🎯

关于项目下一步计划和已完成的目标可以查看这篇文章

如何贡献 :octocat:

  • 如果遇到使用中有什么问题,可以在issue中提出来
  • 代码中如果有逻辑不合理或者内容不完善的地方,可以fork后进行修改,然后Pull Request,如果一经采纳,就会将你加入contributors, 注意提PR之前,检查一下代码风格是否符合PEP8并且改动的代码已经在自己机器上做了充足的测试(保证能长期稳定运行)
  • 可以实现todo中的需求
  • 欢迎在issue中提有意义的future
  • 希望有仔细研究过微博反爬虫策略的同学积极提建议

点击查看贡献者名单

赞助本项目:thumbsup:

如果本项目确实解决了你的刚需,或者对你有较大的启发,不妨请作者喝杯咖啡或者买本新书。

致谢:heart:

  • 感谢大神Askcelery分布式任务调度框架
  • 感谢大神kennethreitzrequests
  • 感谢提PR和issue的同学,这里特别感谢yun17,为本项目做了大量的贡献
  • 感谢所有捐赠和给star支持的网友