From da492bb92302cc1b51fb559f534d569ffe2d259d Mon Sep 17 00:00:00 2001 From: jackfrued Date: Sat, 9 Jun 2018 17:02:41 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=E4=BA=86Scrapy=E9=83=A8?= =?UTF-8?q?=E5=88=86=E6=96=87=E6=A1=A3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...03\345\274\217\345\256\236\347\216\260.md" | 24 +++++++++++++++---- 1 file changed, 19 insertions(+), 5 deletions(-) diff --git "a/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" "b/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" index 95af7963e..9fe53d1c9 100644 --- "a/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" +++ "b/Day66-75/Scrapy\347\210\254\350\231\253\346\241\206\346\236\266\345\210\206\345\270\203\345\274\217\345\256\236\347\216\260.md" @@ -6,11 +6,25 @@ ### Scrapy分布式实现 - - -### 布隆过滤器 - - +1. 安装Scrapy-Redis。 +2. 配置Redis服务器。 +3. 修改配置文件。 + - SCHEDULER = 'scrapy_redis.scheduler.Scheduler' + - DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' + - REDIS_HOST = '1.2.3.4' + - REDIS_PORT = 6379 + - REDIS_PASSWORD = '1qaz2wsx' + - SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue' + - SCHEDULER_PERSIST = True(通过持久化支持接续爬取) + - SCHEDULER_FLUSH_ON_START = True(每次启动时重新爬取) ### Scrapyd分布式部署 +1. 安装Scrapyd +2. 修改配置文件 + - mkdir /etc/scrapyd + - vim /etc/scrapyd/scrapyd.conf +3. 安装Scrapyd-Client + - 将项目打包成Egg文件。 + - 将打包的Egg文件通过addversion.json接口部署到Scrapyd上。 +