Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
tjadamlee authored Apr 12, 2023
1 parent e14c093 commit 1e0becc
Showing 1 changed file with 36 additions and 23 deletions.
59 changes: 36 additions & 23 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,48 +19,61 @@

本项目目标是促进中文对话大模型开源社区的发展,愿景做能帮到每一个人的LLM Engine。现阶段本项目基于一些开源预训练大语言模型(如BLOOM),针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。

## ChatBELLE App
可以使用App在设备端本地运行4bit量化的BELLE-7B模型。
下图是在M1 Max CPU上实时运行的效果(未加速):
下图是一个可以使用App在设备端本地运行4bit量化的BELLE-7B模型,在M1 Max CPU上实时运行的效果(未加速):

**App下载**:请见Releases

[App配套模型下载及使用说明](chat/README.md)

<img src="./chat/chatbelle-demo.gif"></img>

## 最近更新
### 🔄 最近更新
* [2023/04/12] 发布了[ChatBELLE App](chat/README.md),基于[llama.cpp](https://github.com/ggerganov/llama.cpp)[Flutter](https://flutter.dev/),实现跨平台的BELLE-7B离线模型实时交互。
* [2023/04/11] 更新了一个人工精校的eval集合,大约一千多条
* [2023/04/08] [BELLE/10M](https://github.com/LianjiaTech/BELLE/tree/main/10M)中,新加40万条生成的给定角色的多轮对话[Generated Chat](https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M),新加200万条生成多样化指令任务数据[train_2M_CN](https://huggingface.co/datasets/BelleGroup/train_2M_CN)

* [2023/04/05] 提供了colab上面可运行的推理代码[Colab](https://colab.research.google.com/github/LianjiaTech/BELLE/blob/main/notebook/BELLE_INFER_COLAB.ipynb)

## 项目包含以下内容:
* <a href="https://github.com/LianjiaTech/BELLE/tree/main/train/">![Docs](https://img.shields.io/badge/训练代码train-blue)
* 详见[BELLE/train](https://github.com/LianjiaTech/BELLE/tree/main/train),尽可能简化的一个训练代码实现,支持finetune,lora,deepspeed
* <a href="https://github.com/LianjiaTech/BELLE/tree/main/1.5M/">![Docs](https://img.shields.io/badge/数据开放1.5M-blue)</a> <a href="https://github.com/LianjiaTech/BELLE/tree/main/10M/">![Docs](https://img.shields.io/badge/数据开放10M-blue)</a>
* 详见[BELLE/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/1.5M),参考[Stanford Alpaca](https://github.com/tatsu-lab/stanford_alpaca) 生成的中文数据集[1M](https://huggingface.co/datasets/BelleGroup/train_1M_CN) + [0.5M](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN)
* 持续开放的数据集,详见[BELLE/10M](https://github.com/LianjiaTech/BELLE/tree/main/10M)
* <a href="https://github.com/LianjiaTech/BELLE/tree/main/eval/">![Docs](https://img.shields.io/badge/验证集合&验证方法-blue)
* 详见[BELLE/eval](https://github.com/LianjiaTech/BELLE/tree/main/eval),一个1k+的测试集合,和对应打分prompt。包含多个类别,采用GPT-4或者ChatGPT打分。同时提供了一个打分的网页,方便针对单个case使用。欢迎大家通过PR提供更多的测试用例。
* <a href="https://github.com/LianjiaTech/BELLE/tree/main/models/">![Docs](https://img.shields.io/badge/模型-blue)</a>
### 🚀 训练代码

详见[BELLE/train](https://github.com/LianjiaTech/BELLE/tree/main/train),尽可能简化的一个训练代码实现,支持finetune,lora,deepspeed

### 📊 数据开放

详见[BELLE/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/1.5M),参考[Stanford Alpaca](https://github.com/tatsu-lab/stanford_alpaca) 生成的中文数据集[1M](https://huggingface.co/datasets/BelleGroup/train_1M_CN) + [0.5M](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN)

持续开放的数据集,详见[BELLE/10M](https://github.com/LianjiaTech/BELLE/tree/main/10M)

### 🧐 验证集合&验证方法

详见[BELLE/eval](https://github.com/LianjiaTech/BELLE/tree/main/eval),一个1k+的测试集合,和对应打分prompt。包含多个类别,采用GPT-4或者ChatGPT打分。同时提供了一个打分的网页,方便针对单个case使用。欢迎大家通过PR提供更多的测试用例。

### 🤖 模型

详见[BELLE/models](models/)

* 基于BLOOMZ-7B1-mt优化后的模型:[BELLE-7B-0.2M](https://huggingface.co/BelleGroup/BELLE-7B-0.2M)[BELLE-7B-0.6M](https://huggingface.co/BelleGroup/BELLE-7B-0.6M)[BELLE-7B-1M](https://huggingface.co/BelleGroup/BELLE-7B-1M)[BELLE-7B-2M](https://huggingface.co/BelleGroup/BELLE-7B-2M)

* 基于[Meta LLaMA](https://github.com/facebookresearch/llama)实现调优的模型:[BELLE-LLaMA-7B-0.6M-enc](https://huggingface.co/BelleGroup/BELLE-LLaMA-7B-0.6M-enc)
, [BELLE-LLaMA-7B-2M-enc](https://huggingface.co/BelleGroup/BELLE-LLaMA-7B-2M-enc)
, [BELLE-LLaMA-7B-2M-gptq-enc](https://huggingface.co/BelleGroup/BELLE-LLaMA-7B-2M-gptq-enc)
, [BELLE-LLaMA-13B-2M-enc](https://huggingface.co/BelleGroup/BELLE-LLaMA-13B-2M-enc)。请参考[Meta LLaMA的License](https://github.com/facebookresearch/llama/blob/main/LICENSE),目前仅供学习交流。请严遵守LLaMA的使用限制。LaMA模型不允许发布调优后的完整模型权重,但是可以发布原始的模型的diff。因此,我们使用文件间的XOR,保证拥有LLaMA原始模型授权的人才可以将本项目发布的模型转化成可以使用的格式。格式转化代码参考[BELLE/models](https://github.com/LianjiaTech/BELLE/tree/main/models)
* <a href="https://github.com/LianjiaTech/BELLE/tree/main/gptq/">![Docs](https://img.shields.io/badge/模型量化gptq-blue)
* 详见[BELLE/gptq](https://github.com/LianjiaTech/BELLE/tree/main/gptq),参考gptq的实现,对本项目中相关模型进行了量化

* [![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/LianjiaTech/BELLE/blob/main/notebook/BELLE_INFER_COLAB.ipynb) 提供了colab上面可运行的推理代码[Colab](https://colab.research.google.com/github/LianjiaTech/BELLE/blob/main/notebook/BELLE_INFER_COLAB.ipynb)
* <a href="https://github.com/LianjiaTech/BELLE/tree/main/chat/">![Docs](https://img.shields.io/badge/ChatBELLE%20App-blue)
* 详见[BELLE/chat](chat/README.md),基于[BELLE](https://github.com/LianjiaTech/BELLE)模型的跨平台离线大语言模型交谈App。使用量化后的离线端上模型配合Flutter,可在macOS(已支持)、Windows、Android、iOS等设备上运行。
### ⚖️ 模型量化gptq

详见[BELLE/gptq](https://github.com/LianjiaTech/BELLE/tree/main/gptq),参考gptq的实现,对本项目中相关模型进行了量化

### 🌐 Colab

[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/LianjiaTech/BELLE/blob/main/notebook/BELLE_INFER_COLAB.ipynb) 提供了colab上面可运行的推理代码[Colab](https://colab.research.google.com/github/LianjiaTech/BELLE/blob/main/notebook/BELLE_INFER_COLAB.ipynb)

### 💬 ChatBELLE App

详见[BELLE/chat](chat/README.md),基于[BELLE](https://github.com/LianjiaTech/BELLE)模型的跨平台离线大语言模型交谈App。使用量化后的离线端上模型配合Flutter,可在macOS(已支持)、Windows、Android、iOS等设备上运行。

**欢迎大家通过issue贡献更多的prompts!**
**欢迎大家通过issue贡献更多的prompts!**
<br/>

## 局限性和使用限制
### ⚠️ 局限性和使用限制
基于当前数据和基础模型训练得到的SFT模型,在效果上仍存在以下问题:

1. 在涉及事实性的指令上可能会产生违背事实的错误回答。
Expand All @@ -72,7 +85,7 @@
基于以上模型局限性,我们要求开发者仅将我们开源的代码、数据、模型及后续用此项目生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。
<br/>

## 引用
### 📌引用

如果使用本项目的代码、数据或模型,请引用本项目。

Expand All @@ -97,7 +110,7 @@
<br/>


## 模型使用例子
### 📚 模型使用例子
| Human | Assitant |
| ----- | ------ |
| 写一篇英文散文诗,主题是春雨,想象自己是春雨,和英国古代诗人莎士比亚交流 | I am the spring rain,<br/>Dancing on your face and body.<br/>My dew-drenched petals dance with you,<br/>Bringing life to every plant.<br/><br/>Shakespeare, I am here to meet you.<br/>Your works have filled my heart with joy.<br/>The beauty of nature in its fullness<br/>Makes me feel like a partaker.<br/><br/>As the leaves sway and rustle by,<br/>My dew-filled hand reaches out for them.<br/>The sweet scent of flowers fill the air,<br/>And bring me peace from all around.<br/><br/>Butterflies flit about as well,<br/>Glistening in the sun's rays.<br/>Their wings are made of dew,<br/>A beautiful sight to behold.<br/><br/>You see, Shakespeare, I too am one with nature.<br/>My dew-drenched hair is a symbol of hope.<br/>For when we can connect back to our roots,<br/>We will be able to make it through this season. |
Expand Down

0 comments on commit 1e0becc

Please sign in to comment.