- 在HTML提取信息,scrapy提供了XHTMl来获取想要的信息,一些细节可以在文档中获取,这里记录了如何利用 Chorme F12来获取范式,如下图:
探索中
本来练手 Scrapy 去爬妹子图,google了一下,早就有人写出来了, 参考地址,我的爬虫基本上都是 Copy的。走了一遍逻辑,分析了页面构造。
安装过程有点麻烦,主要我们在安装Python的时候,有可能你系统是64位,但是却安装了32位的Python,导致你后来安装Python的库都选择64位,其实应该是32位。
-
下载整个工程
-
cd 进入包含spiders文件夹的目录
-
cmd中输入:scrapy crawl meizitu
先看 妹子图,这么多好看的图,拔下来慢慢玩。
一般的写法也可以爬图片,这次为了体验一下 爬虫神奇,选择了 Scrapy 这个大杀器,好处自然多多的,起码不用担心被封,总之很多不必要的麻烦都不用去考虑了,最重要的是它为爬虫而生。
- 进入妹子官网,其地址栏 URL 为 meizitu.com:
没错红色的URL地址,即为第一张那个妹子的系列图片,我们肯定要获取这个 URL,点击该 URL,页面如下:
没错,这个页面都是这个妹子的图片,查看源码获得图片链接即最后要下载的:
很容易知道,这就是我们最后要下载的图片链接。
上面说了,我们必须要弄明白怎么从首页跳转到第一个,第二个...页面去,这样才够动态。我们点击第一页,注意不是首页,发现页面结构如下图所示,可以看到每一个妹子都不止一张图片,我们就要获取该妹子的 URL,然后进入其主页,获取图片系列 URL,另外可以看到第一页地址栏的 URL:
如上图为首页最下面的连接URL,查看红色部分,发现其为下一个页面的相对URL,补全路径,与我们之前分析的下一个页面 URL 为 “http://www.meizitu.com/a/list_1_1.html” 相同,这样就简单了,我们后面只需要重复前面的动作即可。因为每个页面都会指定下一个页面的 URL。
仓库代码解释更为详细。
我是好孩子,就下几张而已。