Skip to content

iAmNotHomo/Pixiv-Spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 

Repository files navigation

Pixiv-Spider

P站爬虫。

10月初以来,AI作图大行其道。为了让AI在我的XP上作图,我编写了这个脚本用来爬取P站插画,作为训练集。(完成脚本后向同学显摆,被问到为什么不直接下载画师合集,我懵逼了。我是真没想到还有那种办法。)

特性

支持下载关注列表中指定数量的更新,支持下载画师在指定日期内上传的插画,支持对关注列表中所有画师进行批量下载。

分画师保存图片,如路径中已存在同名文件则跳过下载,每次遇到网络波动会尝试重连最多10次。

没有实现模拟登录,而是通过在源文件中修改cookieuid的值来获取用户的登录信息。

自用脚本,几乎没有健壮性。不要输入奇奇怪怪的参数!

注:由于Windows文件命名限制,若画师用户名中含有/ \ < > | " ? * :,会被统一替换为-进行保存。

又注:由于这是我写的第一个超过30行的py程序,所以函数定义有点不规范。脚本完成后我才知道py也能规定参数类型与返回值类型。

环境要求

  • python 3(开发使用3.10)
  • 安装requestslxml
  • 科学上网(

食用方法

1. 填写全局变量

下载PixivSpider.py,根据你的情况填写第6-9行的变量的值。

其中cookieuserAgent需要抓包分析。xUserId就是你的p站账号的uid。file_root_path是下载文件的保存目录。

Chrome浏览器抓包速通

  1. 右击页面
  2. 选择检查->网络
  3. 勾选保留日志,过滤选项选择Fetch/XHR
  4. 点击一个p站链接
  5. 随便点一个捕获到的数据包,检查它的请求标头
  6. 如果包里没有cookie数据就换个数据包看,直到在数据包的请求标头里找到cookie数据
  7. 找到cookieuserAgent项,右键选择复制值,粘贴到PixivSpider.py的相应变量中

image

示例

这是我自用的脚本中填写的变量值。

image

注意

  • 它们都是字符串
  • 文件保存路径中的反斜杠需要转义为"\\"
  • 不要漏了路径最后的那个反斜杠

2. 创建保存目录

以我的参数为例,需要手动创建好E:\pixiv文件夹。脚本会自动创建每个画师的子文件夹。

保存效果:

image

3. 运行!

爬虫有3种运行模式:

  • 扫荡关注列表中的所有画师的最新20(参数定义在源文件216行,可以自行修改扫荡范围)张插画
    • (可选)指定单个画师的最大下载量(以单张图片计数)
  • 指定若干个画师进行下载
    • (可选)指定单个画师的最大下载量(以单张图片计数)
    • (可选)指定上传日期(闭区间,精确到月)
  • 指定下载量(以单次更新计数),下载更新列表中最新的插画。

注:若以单张图片计数,则 (下载量达到设定值 且 当前pid下载完成)后 终止。

例:设定下载指定画师的最新1张图片,该画师的最近更新如下图,则将这3张图片全部下载后终止。

image

依照程序提示输入参数即可使用。轻松加写意!

About

P站爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages