license: apache-2.0
base_model: mistralai/Mistral-7B-v0.1
tags:
- openchat
- mistral
- C-RLFT
library_name: transformers
pipeline_tag: text-generation
利用混合质量数据推进开源语言模型发展
在线演示
|
GitHub
|
论文
|
Discord
由RunPod赞助
目录
- 使用方法
- 性能基准
- 局限性
- 许可证
- 引用
- 致谢
使用方法
我们强烈建议按照安装指南安装OpenChat包,并通过运行下表中的服务命令来使用OpenChat OpenAI兼容API服务器。该服务器针对vLLM的高吞吐量部署进行了优化,可在24GB显存的消费级GPU上运行。要启用张量并行,请在服务命令后追加--tensor-parallel-size N
。
启动后,服务器监听localhost:18888
的请求,并与OpenAI ChatCompletion API规范兼容。请参考下方的示例请求。此外,您可以使用OpenChat网页界面获得更友好的体验。
若需将服务器部署为在线服务,可使用--api-keys sk-KEY1 sk-KEY2 ...
指定允许的API密钥,并通过--disable-log-requests --disable-log-stats --log-file openchat.log
实现仅文件日志记录。出于安全考虑,建议在服务器前部署HTTPS网关。
模型 |
参数量 |
上下文长度 |
权重文件 |
服务命令 |
OpenChat-3.5-0106 |
7B |
8192 |
Huggingface |
python -m ochat.serving.openai_api_server --model openchat/openchat-3.5-0106 --engine-use-ray --worker-use-ray |
示例请求(点击展开)
💡 默认模式(GPT4修正版):最适合编程、聊天和通用任务
curl http://localhost:18888/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openchat_3.5",
"messages": [{"role": "user", "content": "你是一个名为OpenChat的大型语言模型。写一首诗来描述自己"}]
}'
🧮 数学推理模式:专为解决数学问题设计
curl http://localhost:18888/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openchat_3.5",
"condition": "Math Correct",
"messages": [{"role": "user", "content": "10.3 − 7988.8133 = "}]
}'
对话模板
💡 默认模式(GPT4修正版):最适合编程、聊天和通用任务
GPT4 Correct User: 你好<|end_of_turn|>GPT4 Correct Assistant: 你好<|end_of_turn|>GPT4 Correct User: 今天过得怎么样?<|end_of_turn|>GPT4 Correct Assistant:
🧮 数学推理模式:专为解决数学问题设计
Math Correct User: 10.3 − 7988.8133=<|end_of_turn|>Math Correct Assistant:
⚠️ 注意:请将<|end_of_turn|>
设为生成结束标记。
默认(GPT4修正版)模板已集成至tokenizer.chat_template
,可替代手动指定模板:
messages = [
{"role": "user", "content": "你好"},
{"role": "assistant", "content": "你好"},
{"role": "user", "content": "今天过得怎么样?"}
]
tokens = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
assert tokens == [1, 420, 6316, 28781, 3198, 3123, 1247, 28747, 22557, 32000, 420, 6316, 28781, 3198, 3123, 21631, 28747, 15359, 32000, 420, 6316, 28781, 3198, 3123, 1247, 28747, 1602, 460, 368, 3154, 28804, 32000, 420, 6316, 28781, 3198, 3123, 21631, 28747]
(实验性)评估/反馈功能
本次发布包含评估功能以推进开源模型作为评估工具。您可使用默认模式(GPT4修正版)
配合以下提示(同Prometheus)来评估响应质量:
###任务描述:
给定一条指令(可能包含输入)、待评估响应、得分为5的参考答案以及代表评估标准的评分细则。
1. 根据给定评分细则(非泛泛评价)严格评估响应质量,撰写详细反馈。
2. 反馈后给出1-5分的整数评分,需参照评分细则。
3. 输出格式应为:"反馈:(撰写针对标准的反馈) [结果] (1-5的整数)"
4. 请勿生成任何开头、结尾或解释性内容。
###待评估指令:
{原始指令}
###待评估响应:
{原始响应}
###参考答案(5分):
{原始参考答案}
###评分细则:
[{原始标准}]
1分:{1分描述}
2分:{2分描述}
3分:{3分描述}
4分:{4分描述}
5分:{5分描述}
###反馈:
性能基准
模型 |
参数量 |
平均分 |
MT-Bench |
HumanEval |
BBH MC |
AGIEval |
TruthfulQA |
MMLU |
GSM8K |
BBH CoT |
OpenChat-3.5-0106 |
7B |
64.5 |
7.8 |
71.3 |
51.5 |
49.1 |
61.0 |
65.8 |
77.4 |
62.2 |
OpenChat-3.5-1210 |
7B |
63.8 |
7.76 |
68.9 |
49.5 |
48.0 |
61.8 |
65.3 |
77.3 |
61.8 |
OpenChat-3.5 |
7B |
61.6 |
7.81 |
55.5 |
47.6 |
47.4 |
59.1 |
64.3 |
77.3 |
63.5 |
ChatGPT (三月版)* |
???B |
61.5 |
7.94 |
48.1 |
47.6 |
47.1 |
57.7 |
67.3 |
74.9 |
70.1 |
|
|
|
|
|
|
|
|
|
|
|
OpenHermes 2.5 |
7B |
59.3 |
7.54 |
48.2 |
49.4 |
46.5 |
57.5 |
63.8 |
73.5 |
59.9 |
OpenOrca Mistral |
7B |
52.7 |
6.86 |
38.4 |
49.4 |
42.9 |
45.9 |
59.3 |
59.1 |
58.1 |
Zephyr-β^ |
7B |
34.6 |
7.34 |
22.0 |
40.6 |
39.0 |
40.8 |
39.8 |
5.1 |
16.0 |
Mistral |
7B |
- |
6.84 |
30.5 |
39.0 |
38.0 |
- |
60.1 |
52.2 |
- |
评估详情(点击展开)
*:ChatGPT(三月版)结果来自GPT-4技术报告、思维链中心及我们的评估。请注意ChatGPT并非固定基线,其性能随时间快速演进。
^:Zephyr-β常无法遵循少量示例的思维链指令,可能因其仅通过聊天数据对齐而未在少量示例数据上训练。
**:Mistral和开源SOTA结果取自指令调优模型论文和官方仓库的报告结果。
所有模型均在聊天模式下评估(即应用相应对话模板)。所有零样本基准测试采用与AGIEval论文和Orca论文相同的设置。思维链任务使用与思维链中心相同的配置,HumanEval通过EvalPlus评估,MT-bench使用FastChat运行。要复现我们的结果,请遵循我们的仓库中的说明。
HumanEval+
模型 |
参数量 |
HumanEval+ pass@1 |
OpenChat-3.5-0106 |
7B |
65.9 |
ChatGPT (2023年12月12日) |
???B |
64.6 |
WizardCoder-Python-34B-V1.0 |
34B |
64.6 |
OpenChat 3.5 1210 |
7B |
63.4 |
OpenHermes 2.5 |
7B |
41.5 |
OpenChat-3.5 vs. Grok
🔥 OpenChat-3.5-0106 (7B) 现已在全部4项基准上超越Grok-0 (33B),并在平均分及3/4基准上超越Grok-1 (???B)。
|
许可证 |
参数量 |
平均分 |
MMLU |
HumanEval |
MATH |
GSM8k |
OpenChat-3.5-0106 |
Apache-2.0 |
7B |
61.0 |
65.8 |
71.3 |
29.3 |
77.4 |
OpenChat-3.5-1210 |
Apache-2.0 |
7B |
60.1 |
65.3 |
68.9 |
28.9 |
77.3 |
OpenChat-3.5 |
Apache-2.0 |
7B |
56.4 |
64.3 |
55.5 |
28.6 |
|