Skip to content

majiang-java/news_crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Overview

这个是一个基于scrapy框架的爬虫程序,scrapy天然分装好的多线程。 而且有非常多的分装好的中间件可以方便使用,比如seesion池,代理, 并且方便使用redis扩展分布式 程序主要用来爬取新闻

topic

  1. 限制ip用requests代理,买代理,或者网上免费代理
  2. 伪装成浏览器requests切换user agent
  3. 先登录,保存cookiesrequests用session先post拿到cookies,再爬
  4. URL参数太多,一般使用分治法处理网站,先收集种子再逐步爬取

how to run

  1. scrapy crawl neteast
  2. scrapy crawl douban
  3. scrapy crawl bitcoin

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published