wangmiao-1981 / confluence-space-archiver Public

Notifications You must be signed in to change notification settings
Fork 0
Star 1

A tools for backup confluence even if ur a user. Use restapi and JSoup connection. Build on springboot / jpa / PostgreSQL.

Apache-2.0 license

1 star 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
src/main		src/main
.gitignore		.gitignore
LICENSE		LICENSE
License		License
README.md		README.md
pom.xml		pom.xml

Repository files navigation

ConfluenceSpaceArchiver

一个全量归档confluence知识库的工具。通过登录、restapi的方式爬取知识库的结构，用jsoup将页面下载并解析成本地可以使用的离线版本。所有attachemnet、png、drawio都下载到本地。

CHANGELOG

完成多线程版本，经过测试，异步线程取20-50左右比较好
修改了html中各标签的引入地址，变成相对路径

TODO

更新时间做好了，要增加个更新模块
改成分布式的，即能更好控制，也可以并发爬取，要有个资源管理器，好上策略
增加低代码模式
队列增加重试机制

功能特性：

1.页面下载，转存本地
2.链接转写成本地可以跳转
3.资源文件（css,js,img）转至本地
4.附件下载
5.断点续爬，依赖checkpoint，最后一个页面会重爬
6.在页面中增加了attachments列表
7.重写了左侧的树形列表，增加可读性

逻辑架构

登录 - 解析需要下载的空间列表
登录指定空间 - 取cookie保持登录状态，给后续下载用
下载队列 - 按url解析资源文件：css、js、附件等
补充page间本地链接关系，替代书签

使用说明

配置数据库，用于保存页面信息，以后再考虑脱离数据库或用h2
先将application.yml中的配置改下：（是否爬取下级子页面） PROC_SUB_PAGE: true （是否下载页面，先爬一个完整的页面树后，再开，可保障目录树的下级是完整的） PROC_DOWNLOAD_PAGE: false
爬取结构
打开PROC_DOWNLOAD_PAGE: true，正式下载文件、附件

About

A tools for backup confluence even if ur a user. Use restapi and JSoup connection. Build on springboot / jpa / PostgreSQL.

Apache-2.0 license

Report repository

Releases

No releases published

Packages

No packages published

Languages

Java 100.0%