Skip to content

Commit

Permalink
open source tool dataset
Browse files Browse the repository at this point in the history
  • Loading branch information
artpli authored Jul 9, 2023
1 parent 00555d9 commit 9cc119e
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -48,7 +48,7 @@

- [**moss-002-sft-data**](https://huggingface.co/datasets/fnlp/moss-002-sft-data): MOSS-002所使用的多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由`text-davinci-003`生成的约57万条英文对话和59万条中文对话。
- [**moss-003-sft-data**](https://github.com/OpenLMLab/MOSS/tree/main/SFT_data): `moss-moon-003-sft`所使用的多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和`gpt-3.5-turbo`构造而成,相比`moss-002-sft-data``moss-003-sft-data`更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。完整数据已全部开源。
- [**moss-003-sft-plugin-data**](https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins): `moss-moon-003-sft-plugin`所使用的插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。目前仅开源少量示例数据,完整数据将在近期开源
- [**moss-003-sft-plugin-data**](https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins): `moss-moon-003-sft-plugin`所使用的插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。[开源](https://huggingface.co/datasets/fnlp/moss-003-sft-data/tree/main)除text2image之外的所有数据
- **moss-003-pm-data**: `moss-moon-003-pm`所使用的偏好数据,包含在约18万额外对话上下文数据及使用`moss-moon-003-sft`所产生的回复数据上构造得到的偏好对比数据,将在近期开源。

### 工程方案
Expand Down

0 comments on commit 9cc119e

Please sign in to comment.