license: apache-2.0
base_model: mistralai/Mistral-7B-v0.1
tags:
- openchat
- mistral
- C-RLFT
datasets:
- openchat/openchat_sharegpt4_dataset
- kaist-ai/Feedback-Collection
- imone/OpenOrca_FLAN
- LDJnr/Capybara
- tiedong/goat
- glaiveai/glaive-code-assistant
- meta-math/MetaMathQA
- OpenAssistant/oasst_top1_2023-08-25
- TIGER-Lab/MathInstruct
library_name: transformers
pipeline_tag: text-generation
利用混合质量数据推进开源语言模型发展
在线演示
|
GitHub
|
论文
|
Discord
由RunPod赞助
目录
- 使用指南
- 基准测试
- 局限性
- 许可证
- 数据集详情
- 引用
- 致谢
使用指南
建议通过安装指南安装OpenChat包,并运行下表中的服务命令启动兼容OpenAI API的服务。该服务采用vLLM优化高吞吐部署,可在24GB显存的消费级GPU运行。启用张量并行需在服务命令后追加--tensor-parallel-size N
参数。
服务启动后监听localhost:18888
端口,完全兼容OpenAI ChatCompletion API规范。参考下方示例请求,也可使用OpenChat网页界面获得更友好体验。
若需部署为在线服务,可使用--api-keys sk-KEY1 sk-KEY2 ...
指定API密钥,并通过--disable-log-requests --disable-log-stats --log-file openchat.log
仅记录日志到文件。建议前置HTTPS网关保障安全性。
模型 |
参数量 |
上下文长度 |
权重文件 |
服务启动命令 |
OpenChat 3.5 1210 |
7B |
8192 |
Huggingface |
python -m ochat.serving.openai_api_server --model openchat/openchat-3.5-1210 --engine-use-ray --worker-use-ray |
请求示例(点击展开)
üí° 默认模式(GPT4修正版):最适合编程、聊天和通用任务
curl http://localhost:18888/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openchat_3.5",
"messages": [{"role": "user", "content": "你是一个名为OpenChat的大语言模型。写一首诗描述你自己"}]
}'
ü߯ 数学推理模式:专为数学问题设计
curl http://localhost:18888/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openchat_3.5",
"condition": "Math Correct",
"messages": [{"role": "user", "content": "10.3 ‚àí 7988.8133 = "}]
}'
对话模板
üí° 默认模式(GPT4修正版):
GPT4 Correct User: 你好<|end_of_turn|>GPT4 Correct Assistant: 你好<|end_of_turn|>GPT4 Correct User: 今天过得怎么样?<|end_of_turn|>GPT4 Correct Assistant:
ü߯ 数学推理模式:
Math Correct User: 10.3 ‚àí 7988.8133=<|end_of_turn|>Math Correct Assistant:
‚ö†Ô∏è 注意:需设置<|end_of_turn|>
作为生成终止标记。
默认模板已集成至tokenizer.chat_template
,可直接调用:
messages = [
{"role": "user", "content": "你好"},
{"role": "assistant", "content": "你好"},
{"role": "user", "content": "今天过得如何?"}
]
tokens = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
(实验性)评估/反馈功能
本版本包含评估功能以推进开源模型作为评估工具。使用以下提示(同[Prometheus](https://huggingface.co/datasets/kaist-ai/Feedback-Collection))进行响应评估:
###任务描述:
给定指令(可能包含输入)、待评估响应、得分为5的参考答案以及代表评分标准的分值细则:
1. 严格根据评分细则撰写详细反馈
2. 反馈后给出1-5分的整数评分
3. 输出格式:"Feedback: (反馈内容) [RESULT] (1-5分)"
4. 不要生成任何开头、结尾或解释
###待评估指令:
{orig_instruction}
###待评估响应:
{orig_response}
###参考答案(5分):
{orig_reference_answer}
###评分细则:
[{orig_criteria}]
1分:{orig_score1_description}
2分:{orig_score2_description}
3分:{orig_score3_description}
4分:{orig_score4_description}
5分:{orig_score5_description}
###反馈:
基准测试
模型 |
参数量 |
平均分 |
MT-Bench |
HumanEval |
BBH MC |
AGIEval |
TruthfulQA |
MMLU |
GSM8K |
BBH CoT |
OpenChat-3.5-1210 |
7B |
63.8 |
7.76 |
68.9 |
49.5 |
48.0 |
61.8 |
65.3 |
77.3 |
61.8 |
OpenChat-3.5 |
7B |
61.6 |
7.81 |
55.5 |
47.6 |
47.4 |
59.1 |
64.3 |
77.3 |
63.5 |
ChatGPT (3月版)* |
? |
61.5 |
7.94 |
48.1 |
47.6 |
47.1 |
57.7 |
67.3 |
74.9 |
70.1 |
评估细节(点击展开)
*: ChatGPT(3月版)结果来自[GPT-4技术报告](https://arxiv.org/abs/2303.08774)、[思维链中心](https://github.com/FranxYao/chain-of-thought-hub)及我们的评估。注意ChatGPT非固定基线且迭代迅速。
^: Zephyr-Œ≤常无法遵循少样本思维链指令,可能因其仅对齐聊天数据但未训练少样本数据。
**: Mistral及开源SOTA结果取自各指令调优模型论文与官方仓库。
所有模型均在聊天模式下评估(应用相应对话模板)。零样本测试设置同AGIEval与Orca论文。思维链任务采用Chain-of-Thought Hub配置,HumanEval使用EvalPlus评估,MT-bench通过FastChat运行。复现方法见项目仓库。
HumanEval+
模型 |
参数量 |
HumanEval+ pass@1 |
ChatGPT (2023/12/12) |
- |
64.6 |
WizardCoder-Python-34B |
34B |
64.6 |
OpenChat 3.5 (12/10) |
7B |
63.4 |
OpenHermes 2.5 |
7B |
41.5 |
OpenChat-3.5-1210对比Grok
|
许可证 |
参数量 |
平均分 |
MMLU |
HumanEval |
MATH |
GSM8k |
OpenChat 3.5 1210 |
Apache-2.0 |
7B |
60.1 |
65.3 |
68.9 |
28.9 |
77.3 |
OpenChat 3.5 |
Apache-2.0 |
7B |
56.4 |
64.3 |
55.5 |
28.6 |
77.3 |
Grok-0 |
专有 |
33B |
44.5 |
65.7 |
39.7 |
15.7 |
56.8 |
Grok-1 |
专有 |
???B |
55.8 |
73 |
63.2 |
23.9 |
62.9 |
*: Grok结果由X.AI官方提供
中文能力评估
‚ö†Ô∏è 注意:该模型未专门针对中文训练(中文数据占比<0.1%)
多学科多层次中文评估套件(CEVAL)
模型 |
平均分 |
理工科 |
社会科学 |
人文学科 |
其他学科 |
ChatGPT |
54.4 |
52.9 |
61.8 |
50.9 |
53.6 |
OpenChat |
47.29 |
45.22 |
52.49 |
48.52 |
45.08 |
中文多任务语言理解(CMMLU,5样本)