scrapy_ddiy

Scrapy 自定义框架组件，爬虫项目练习, 支持 Redis 爬虫

请在项目路径下运行本项目相关程序！

Read the Document

环境需求

Redis server 4.0.9+
MongoDB server 4.2+

项目配置

本项目分为线上、测试环境，通过 settings => ENV_FLAG_DDIY 进行区分。
线上环境相关配置可通过 ddiy_settings/online_settings.py 进行配置

新建爬虫

将本项目 clone 到本地，在 spiders 文件夹中创建爬虫即可。（或在项目路径下使用scrapy genspider spider_name ）
请务必继承以下爬虫！！！
普通 Scrapy 爬虫请继承 scrapy_ddiy.utils.spiders.ddiy_base.DdiyBaseSpider 爬虫
Redis 爬虫请继承 scrapy_ddiy.utils.spiders.ddiy_redis.DdiyRedisSpider 爬虫

运行爬虫

python run_spider.py spider_name

or

python run_spider.py spider_name -a xx=xx -a xx=xx

运行 Redis 爬虫前请为其灌入种子
如运行 script/set_redis_demo_spider.py 为 redis_demo_spider 灌入种子

示例爬虫

Scrapy 原生爬虫：demo_spider
Redis 爬虫：redis_demo_spider

功能概览

爬虫列表

TODO

使用 ORM 添加处理 sql 数据库的管道
框架层面处理 Redis 爬虫中需要去重但是重试指定次数后仍失败的请求，将其从去重队列删除
钉钉发送预警消息时接入 @ 某（些）人功能

注意事项

spider.process_parsed_item 会默认通过请求计算 _id （当 item 传入 _id 不会将其覆盖）
由于 MongoDB 默认会将 _id 置为主键，当 同一个请求中解析出多条数据 时请注意配置
spider.process_parsed_item 不要计算 _id 或为 item 传入 _id
（MongoDB 不存在 _id 时会生成与入库时间相关的 ObjectId 作为主键）
非线上环境时（环境变量 'ENV_FLAG_DDIY' != 'online'），为了防止污染线上数据，会将数据库库名统一置为 scrapy_ddiy_test
使用 -a 传递参数时请注意该参数名是否会影响爬虫本身逻辑，Scrapy 原生会将传递的参数置为爬虫的属性
MongoDB 管道目前仅支持单字段索引，若要创建复合索引或进行其他复杂操作，请自行在 spider.custom_init 方法中执行
邮件预警时使用的是 scrapy 自带的邮件发送，会抛出异常，不过没什么影响，详见 scrapy 官方 issue
MongoDB 中异常信息默认 90 天过期，将会自动删除

Name		Name	Last commit message	Last commit date
Latest commit History 187 Commits
scrapy_ddiy		scrapy_ddiy
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
run_spider.py		run_spider.py
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

scrapy_ddiy

环境需求

项目配置

新建爬虫

运行爬虫

示例爬虫

功能概览

爬虫列表

TODO

注意事项

About

Releases

Packages

Languages

License

parasite007/scrapy_ddiy

Folders and files

Latest commit

History

Repository files navigation

scrapy_ddiy

环境需求

项目配置

新建爬虫

运行爬虫

示例爬虫

功能概览

爬虫列表

TODO

注意事项

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages