http://thesis.lib.sjtu.edu.cn/,该网站是上海交通大学的学位论文下载系统,收录了交大的硕士博士的论文,但是,该版权保护系统用起来很不方便,加载起来非常慢,所以该下载器实现将网页上的每一页的图片合并成一个PDF。
使用PyMuPDF
对图片进行合并
pip install -r requirements.py
python downloader.py
- 如何解决
thesis.lib.sjtu.edu.cn
限制访问次数的问题 - 引入协程,提高并发(以前试过,不过由于网站太慢了,并行就崩了),多进程的版本可以看commit
- 改进交互能力及已存在的bug