Skip to content

Commit 476bebb

Browse files
committedNov 18, 2015
test
1 parent d228711 commit 476bebb

File tree

1 file changed

+4
-2
lines changed

1 file changed

+4
-2
lines changed
 

‎ReadMe.md

+4-2
Original file line numberDiff line numberDiff line change
@@ -233,6 +233,7 @@ Selenium是一款自动化测试工具。它能实现操纵浏览器,包括字
233233
**爬取还有一个需要注意的问题:**
234234

235235
* 如何监控一系列网站的更新情况,也就是说,如何进行增量式爬取?
236+
* 对于海量数据,如何实现分布式爬取?
236237

237238
## 分析
238239

@@ -248,8 +249,9 @@ Selenium是一款自动化测试工具。它能实现操纵浏览器,包括字
248249

249250
**存储有两个需要注意的问题:**
250251

251-
* 以什么形式存储?
252-
* 如何进行内容去重?
252+
* 如何进行网页去重?
253+
* 内容以什么形式存储?
254+
253255

254256
## Scrapy
255257

0 commit comments

Comments
 (0)
Please sign in to comment.