pipeline_tag: 文本生成
license: apache-2.0
language:
联发科研发Breeze-7B-Instruct-v1_0模型卡
联发科研发Breeze-7B(以下简称Breeze-7B)是基于Mistral-7B构建的语言模型系列,专为繁体中文应用场景设计。
Breeze-7B-Base是该系列的基础模型。若您拥有充足的微调数据来适配特定应用场景,此基础模型将非常适用。
Breeze-7B-Instruct衍生自基础模型Breeze-7B-Base,可直接用于常见任务场景。
当前发布的Breeze-7B版本为v1.0,相比Breeze-7B-v0_1经过更精细的训练流程,在英文和繁体中文任务上均展现出显著提升的性能表现。
模型详情请参阅我们的论文。
实用性方面:
- Breeze-7B-Base通过新增30,000个繁体中文token扩展了原始词表。在同等条件下,扩展词表使Breeze-7B处理繁体中文的推理速度达到Mistral-7B和Llama 7B的两倍。[参见推理性能]
- Breeze-7B-Instruct可直接应用于问答、检索增强生成、多轮对话和文本摘要等常见任务。
性能表现:
- 在与台湾LLM-7B/13B-chat、QWen(1.5)-7B-Chat及Yi-6B-Chat等同类开源模型的对比中,Breeze-7B-Instruct在繁体中文和英文基准测试中展现出卓越性能。[参见对话模型性能]
项目成员(按字母排序):许湛然、刘昶乐、廖峰挺、许博竣、陈宜昌,以及指导教授许大山。
演示
点击体验演示 👩💻🧑🏻💻
特性
- Breeze-7B-Base-v1_0
- 词表从32k扩展至62k以更好支持繁体中文
- 8k token上下文长度
- Breeze-7B-Instruct-v1_0
- 词表从32k扩展至62k以更好支持繁体中文
- 8k token上下文长度
- 支持多轮对话(未对有害内容做特殊处理)
模型详情
- Breeze-7B-Base-v1_0
- Breeze-7B-Instruct-v1_0
基础模型性能
此处我们将Breeze-7B-Base-v1_0与参数规模相近、中文表现优异的开源基础语言模型进行对比。TMMLU+、DRCD和Table数据源自MediaTek-Research/TCEval-v2。MediaTek-Research/TCEval-v2衍生自TCEval-v1和ikala/tmmluplus。MMLU源自hails/mmlu_no_train。我们使用改编自EleutherAI/lm-evaluation-harness的代码评估TMMLU+、DRCD、Table和MMLU,所有选择题均采用对数似然选择法。
模型 |
参数量 |
↑ TMMLU+ (ACC) |
DRCD (EM) |
Table (ACC) |
MMLU (ACC) |
|
|
繁体中文, 知识 |
繁体中文, 推理 |
繁体中文, 推理 |
英文, 知识 |
|
|
5样本 |
3样本 |
5样本 |
5样本 |
Yi-6B |
6B |
49.63 |
76.61 |
34.72 |
65.35 |
Qwen1.5-7B |
7B |
46.59 |
74.41 |
30.56 |
63.07 |
Breeze-7B-Base-v1_0 |
7B |
42.67 |
80.61 |
31.99 |
61.24 |
Mistral-7B-v0.1 |
7B |
36.93 |
79.27 |
27.78 |
64.89 |
指令微调模型性能
此处我们将Breeze-7B-Instruct-v1_0与参数规模相近、中文表现优异的开源指令微调模型进行对比。同时列出GPT-3.5 Turbo (1106)的基准分数作为参考,该模型代表当前广泛使用的高质量云端语言模型API服务。
TMMLU+、DRCD、Table和MT-Bench-tw数据源自MediaTek-Research/TCEval-v2。
MediaTek-Research/TCEval-v2衍生自TCEval-v1和ikala/tmmluplus。MMLU源自hails/mmlu_no_train。MT-Bench源自lmsys/mt_bench_human_judgments。
我们使用改编自EleutherAI/lm-evaluation-harness的代码评估TMMLU+、DRCD、Table和MMLU,所有选择题均采用对数似然选择法。
我们使用改编自fastchat llm_judge(GPT4作为评判者)的代码评估MT-Bench-tw和MT-Bench。
*注:台湾LLM模型在回答多轮英文问题时使用繁体中文响应。
MT-Bench-tw (零样本) 详细分项: 模型 |
STEM |
信息提取 |
逻辑推理 |
数学 |
编程 |
角色扮演 |
写作 |
人文科学 |
平均分 |
GPT-3.5-Turbo |
7.8 |
6.1 |
5.1 |
6.4 |
6.2 |
8.7 |
7.4 |
9.3 |
7.1 |
Qwen1.5-7B-Chat |
9 |
5.6 |
4.7 |
2.8 |
3.7 |
8.0 |
8.0 |
9.4 |
6.4 |
Breeze-7B-Instruct-v1_0 |
7.8 |
5.2 |
4.2 |
4.2 |
4.1 |
7.6 |
5.9 |
9.1 |
6.0 |
Mistral-7B-v0.2-Instruct |
6.9 |
4.6 |
4.3 |
3.3 |
4.4 |
7.2 |
6.2 |
7.8 |
5.6 |
Yi-6B-Chat |
7.3 |
2.7 |
3.1 |
3.3 |
2.3 |
7.2 |
5.2 |
8.8 |
5.0 |
Taiwan-LLM-13B-v2.0-chat |
6.1 |
3.4 |
4.1 |
2.3 |
3.1 |
7.4 |
6.6 |
6.8 |
5.0 |
Taiwan-LLM- |
|
|
|
|
|
|
|
|
|