Skip to content
This repository has been archived by the owner on Mar 12, 2024. It is now read-only.

Latest commit

 

History

History
155 lines (126 loc) · 5.74 KB

CHANGELOG.md

File metadata and controls

155 lines (126 loc) · 5.74 KB

buff csgo skin crawler

v1.0.0(2019-11-30)

  • 功能
    • 完成爬取、简单分析功能;

v1.1.0(2019-11-30)

  • 功能
    • 默认优先使用本地文件加载数据,没数据时再从网站获取;

v1.2.0(2019-11-30)

  • 功能
    • 使用pandas DataFrame的筛选排序功能替换原来使用list的做法;

v1.3.0(2019-11-30)

  • 功能
    • 爬取所有item的steam历史(默认7天)售出价格;
    • 使用steam历史售出价格平均值替代steam最低售价,售价可能虚高,售出价格才是实在的;

v1.4.0(2019-11-31)

  • 功能
    • cookie放入文件;
    • 价格低于CRAWL_MIN_PRICE_ITEM或高于CRAWL_MAX_PRICE_ITEM就不爬取了,每个item的历史售出价格都要单独爬一次,太耗时了;

v1.5.0(2019-12-02)

  • 功能
    • 爬取的数据、log、建议分别放到database、log、suggestion文件夹中,同时console也会输出所有内容;
    • 实际计算average_sold_price价格的时候,用的是该饰品steam历史售价的.25分位点,更科学一些。防止一些“好货”带高预期收入;
    • 调整扣税总比例为15%,steam 5%,csgo 10%;
    • 爬取价格的时候增加进度显示,好对总时间有预期;
    • 爬取的时候设置timeout=5s,超时报错返回;

v1.6.0(2019-12-03)

  • 功能
    • 配置文件正式单独抽取为config/config.ini,配置起来更人性化;

v2.0.0(2019-12-04)

  • 功能
    • 将buff作为工具人,先对buff使用价格过滤,只爬取过滤后满足价格区间的饰品。比起之前先爬取所有数据再筛选价格的方式,效率提升数倍;
    • 文件名加上价格区间标识,某已爬取价格区间的数据不影响同一时间段对其他价格区间数据的爬取;
  • bugfix

v3.0.0(2019-12-05)

  • 功能
    • 工程正式命名为oddish | 走路草,第43号神奇宝贝;
    • 支持设置饰品类别黑名单白名单,详见README;
    • 将原有的两种(按类别爬取所有饰品、按价格区间爬取物品)爬取网站的入口合二为一, 现在统一按照价格区间爬取,如果设置了饰品类别黑白名单,再按照类别爬取;
    • 请求url时增加简单的超时重试机制;
    • 使用json.loads()转换plain string list;

v3.1.0(2019-12-07)

  • bugfix
    • 之前取steam售价的.25作为均价的实现有问题,改错地方了,已修复;

v3.2.0(2020-04-19)

  • 功能
    • cookie不当导致登陆失败的情况下,给出友善的提醒,而不是直接崩掉,呈现一堆stacktrace;
    • 默认排除掉除武器以外的饰品;
    • 新增cookie示例;

v3.3.0(2020-05-24)

  • 功能
    • 添加badge;
    • 添加github sponsor按钮;

v3.4.0(2020-07-27)

  • 功能
    • 支持自定义爬取间隔;

v3.5.0(2020-08-06)

  • 功能
    • 将steam历史价格来源替换为社区市场;

v3.6.0(2020-08-18)

  • 功能
    • 黑白名单支持通配符设定;
  • bugfix
    • 修复超时重试时参数传递错误;
    • 移除过期配置项;
    • 修复无法正确获取历史交易数量的错误;

v3.6.1(2020-09-10)

  • bugfix
    • 饰品爬取较多时难免碰到某些条目爬取异常,忽略即可,程序正常继续执行;

v3.7.0(2020-10-16)

  • 功能
    • 引入单页面缓存,增强爬取容错能力;
    • 允许不通过代理直连;

v3.8.0(2020-10-16)

  • 功能
    • 添加开源标准:开源许可、CONTRIBUTING、templates等;

v3.8.1(2020-10-19)

  • 功能
    • 多issue template支持;

v3.8.2(2020-10-23)

  • bugfix
    • 修复 Win 下缓存文件编码的问题
    • 在缓存意外不合法时现在会重新抓取

v3.8.3(2020-11-12)

  • bugfix
    • sticker类别变多了,默认黑白名单屏蔽sticker的时候使用通配符;
    • 增加了一些校验,防止特殊情况数据不存在时报错:
      • 写cache前校验爬取内容是否超时为None;
      • 数据表为空校验。没爬到数据就不给出建议了;
      • 获取steam历史价格返回时,增加'prices' key存在性校验;

v3.8.4(2020-11-17)

  • bugfix
    • 根据页数爬取数据时,增加数据结构校验,有可能爬取内容过多,饰品销售过快,一开始的页面数目已不存在;
  • 功能
    • 增加requirements.txt
    • readme增加关于使用uu加速器的doc;

3.9.0(2020-12-11)

  • 功能
    • 每一次请求都随机选用user agent,也许会对封禁有所帮助;

3.9.1(2020-12-14)

  • 功能
    • 配置里支持使用buff_user_agent粘贴自己的ua。如果留空,使用随机的ua,且每次爬取都使用该ua,而不是每次请求都随机一个ua。

3.9.2(2020-12-19)

  • 功能
    • buff有个page_size参数,实验发现每页最大可请求80个item。默认为20,所以能减少1/4的http请求;

3.9.3(2020-12-21)

  • bugfix
    • 应该用总量除以80,而不是总页数除以80……

4.0.0(2021-01-10)

  • 功能
    • 使用aio从steam获取请求;

4.1.0(2021-01-11)

  • 功能
    • aio http session使用自定义timeout,可以和cache兼容使用(默认的timeout为什么不行,原因不明……);

4.1.1(2021-01-16)

  • bugfix
    • 修复(workaround)win下结束爬取后报错的问题

4.2(2021-4-4)

  • 功能
    • 简易的 GUI 界面,自动获取 cookie,设置类型限定
    • 完全异步爬取,在等待 buff 爬取时爬取 steam数据
    • 命令行界面的回滚支持
    • 去除 numpy, pandas 依赖,控制可执行文件尺寸
  • bugfix
    • 修复 buff 的缓存问题