模型简介
模型特点
模型能力
使用案例
🚀 Breeze-7B-Base-v0.1-GGUF
本项目包含了联发科研究院(MediaTek Research)的 Breeze-7B-Base-v0.1 模型的 GGUF 格式文件。GGUF 是一种新的模型格式,能让模型在更多客户端和库中使用。Breeze-7B 模型专为繁体中文使用场景设计,在推理速度和性能表现上都有不错的效果。
🚀 快速开始
安装依赖
首先安装直接依赖项:
pip install transformers torch accelerate
如果你想使用 flash-attention2 来加快推理速度,还需要安装以下依赖项:
pip install packaging ninja
pip install flash-attn
加载模型
在 transformers
中加载模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
model="MediaTek-Research/Breeze-7B-Instruct-v0.1",
device_map="auto",
torch_dtype=torch.bfloat16,
use_flash_attn_2=True # 可选
)
查询模板结构
查询模板的结构遵循 Mistral-7B-Instruct 的格式,如下所示:
<s> SYS_PROMPT [INST] QUERY1 [/INST] RESPONSE1 [INST] QUERY2 [/INST]
其中,SYS_PROMPT
、QUERY1
、RESPONSE1
和 QUERY2
可以由用户提供。
建议的默认系统提示
You are a helpful AI assistant built by MediaTek Research. The user you are helping speaks Traditional Chinese and comes from Taiwan.
✨ 主要特性
Breeze-7B-Base-v0.1
- 将词汇表大小从 32k 扩展到 62k,以更好地支持繁体中文。
- 支持 8k 标记的上下文长度。
Breeze-7B-Instruct-v0.1
- 将词汇表大小从 32k 扩展到 62k,以更好地支持繁体中文。
- 支持 8k 标记的上下文长度。
- 支持多轮对话(未对有害内容进行特殊处理)。
Breeze-7B-Instruct-64k-v0.1
- 将词汇表大小从 32k 扩展到 62k,以更好地支持繁体中文。
- 支持 64k 标记的上下文长度,约相当于 88k 个繁体中文字符。
- 支持多轮对话(未对有害内容进行特殊处理)。
📚 详细文档
模型创建者
原始模型
关于 GGUF
GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式,它取代了不再被 llama.cpp 支持的 GGML 格式。以下是已知支持 GGUF 的客户端和库的不完全列表:
- llama.cpp:GGUF 的源项目,提供了命令行界面和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持所有平台和 GPU 架构的 GPU 加速,特别适合讲故事。
- GPT4All:一个免费开源的本地运行 GUI,支持 Windows、Linux 和 macOS,具备完整的 GPU 加速功能。
- LM Studio:一个易于使用且功能强大的本地 GUI,适用于 Windows 和 macOS(Silicon),支持 GPU 加速,截至 2023 年 11 月 27 日,Linux 版本处于测试阶段。
- LoLLMS Web UI:一个很棒的 Web UI,具有许多有趣和独特的功能,包括一个完整的模型库,便于模型选择。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天 GUI,适用于 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- llama-cpp-python:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
- candle:一个专注于性能的 Rust ML 框架,包括 GPU 支持,且易于使用。
- ctransformers:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日,ctransformers 已有很长时间未更新,不支持许多最新的模型。
原始模型介绍
Breeze-7B 是一个基于 Mistral-7B 构建的语言模型家族,专门为繁体中文使用场景设计。
- Breeze-7B-Base:Breeze-7B 系列的基础模型,如果你有大量的微调数据来针对特定用例进行微调,它是一个合适的选择。
- Breeze-7B-Instruct:从 Breeze-7B-Base 基础模型派生而来,可直接用于常见任务。
- Breeze-7B-Instruct-64k:是 Breeze-7B-Instruct 的一个略微修改版本,支持 64k 标记的上下文长度,可处理文档级别的任务。
实用性表现
- Breeze-7B-Base:在原有词汇表的基础上增加了 30,000 个繁体中文标记。在其他条件相同的情况下,Breeze-7B 对繁体中文的推理速度是 Mistral-7B 和 Llama 7B 的两倍。[详见 推理性能。]
- Breeze-7B-Instruct:可直接用于常见任务,如问答、检索式增强生成(RAG)、多轮聊天和摘要生成。
- Breeze-7B-Instruct-64k:能够处理文档级别的任务,而不仅仅是章节级别的任务。
性能表现
- Breeze-7B-Instruct:在繁体中文基准测试中表现出色,与同规模的开源模型(如 Taiwan-LLM-7B/13B-chat、QWen-7B-Chat 和 Yi-6B-Chat)相比具有优势。[详见 聊天模型性能。]
- Breeze-7B-Instruct:在 MMLU 和 MT-Bench 基准测试中与 Mistral-7B-Instruct-v0.1 表现相当。[详见 聊天模型性能。]
项目成员
项目成员(按字母顺序排列):Chan-Jan Hsu 許湛然、Chang-Le Liu 劉昶樂、Feng-Ting Liao 廖峰挺、Po-Chun Hsu 許博竣、Yi-Chang Chen 陳宜昌,以及导师 Da-Shan Shiu 許大山。
🔧 技术细节
模型详情
模型名称 | 微调来源 | 模型类型 | 支持语言 |
---|---|---|---|
Breeze-7B-Base-v0.1 | mistralai/Mistral-7B-v0.1 | 因果解码器型变压器语言模型 | 英语和繁体中文(zh-tw) |
Breeze-7B-Instruct-v0.1 | MediaTek-Research/Breeze-7B-Base-v0.1 | 因果解码器型变压器语言模型 | 英语和繁体中文(zh-tw) |
Breeze-7B-Instruct-64k-v0.1 | MediaTek-Research/Breeze-7B-Instruct-v0.1 | 因果解码器型变压器语言模型 | 英语和繁体中文(zh-tw) |
基础模型性能
TMMLU+、DRCD 和 Table 的数据来源于 MediaTek-Research/TCEval-v2,该数据集派生自 TCEval-v1 和 ikala/tmmluplus。MMLU 的数据来源于 hails/mmlu_no_train。我们使用从 EleutherAI/lm-evaluation-harness 修改而来的代码来评估 TMMLU+、DRCD、Table 和 MMLU。
模型 | 规模 | ↑ TMMLU+ (ACC) (繁体中文,知识,5 次提示) |
DRCD (EM) (繁体中文,推理,3 次提示) |
Table (ACC) (繁体中文,推理,5 次提示) |
MMLU (ACC) (英语,知识,5 次提示) |
---|---|---|---|---|---|
Yi-34B | 34B | 63.10 | 84.57 | 49.31 | 77.42 |
Qwen-14B | 14B | 51.30 | 16.95 * | 50.69 | 68.83 |
Yi-6B | 6B | 49.63 | 76.61 | 34.72 | 65.35 |
Qwen-7B | 7B | 42.84 | 0.0 * | 39.58 | 61.00 |
Breeze-7B-Base-v0.1 | 7B | 40.35 | 81.13 | 28.47 | 61.63 |
Mistral-7B-v0.1 | 7B | 36.93 | 79.27 | 27.78 | 64.89 |
注:* 少样本学习无法有效地引导模型生成合适的答案。
聊天模型性能
TMMLU+、DRCD、Table 和 MT-Bench-tw 的数据来源于 MediaTek-Research/TCEval-v2,该数据集派生自 TCEval-v1 和 ikala/tmmluplus。MMLU 的数据来源于 hails/mmlu_no_train。MT-Bench 的数据来源于 lmsys/mt_bench_human_judgments。我们使用从 EleutherAI/lm-evaluation-harness 修改而来的代码来评估 TMMLU+、DRCD、Table 和 MMLU。使用从 fastchat llm_judge(以 GPT4 作为评判)修改而来的代码来评估 MT-Bench-tw 和 MT-Bench。
模型 | 规模 | ↑ MT-Bench-tw (Score) (繁体中文,聊天,0 次提示) |
TMMLU+ (ACC) (繁体中文,知识,0 次提示) |
TMMLU+ (ACC) (繁体中文,知识,5 次提示) |
DRCD (EM) (繁体中文,推理,3 次提示) |
Table (ACC) (繁体中文,推理,0 次提示) |
MT-Bench (Score) (英语,聊天,0 次提示) |
MMLU (ACC) (英语,知识,0 次提示) |
MMLU (ACC) (英语,知识,5 次提示) |
---|---|---|---|---|---|---|---|---|---|
gpt-3.5-turbo | - | 7.1 | 41.76 | - | - | - | 7.9 | 70.00 | - |
Yi-34B-Chat | 34B | 6.9 | 54.87 | - | - | 36.81 | 7.6 | 71.04 | - |
Qwen-14B-Chat | 14B | 6.4 | 48.41 | - | - | 41.67 | 7.2 | 64.91 | - |
Breeze-7B-Instruct-v0.1 | 7B | 5.7 | 41.61 | - | - | 45.83 | 7.1 | 63.26 | - |
Breeze-7B-Instruct-64k-v0.1 | 7B | 5.5 | 40.99 | - | - | 36.11 | 7.1 | 63.68 | - |
Qwen-7B-Chat | 7B | 5.4 | 40.02 | - | - | 33.33 | 6.2 | 55.94 | - |
Yi-6B-Chat | 6B | 5.0 | 44.79 | - | - | 25.69 | 6.0 | 59.45 | - |
Taiwan-LLM-13B-v2.0-chat | 13B | 5.0 | 29.47 | - | - | 23.61 | - * | 50.50 | - |
Taiwan-LLM-7B-v2.1-chat | 7B | 4.2 | 28.08 | - | - | 31.25 | - * | 42.72 | - |
注:* 台湾 LLM 模型以繁体中文回答多轮问题(英语)。
MT-Bench-tw(0 次提示)分类得分
模型 | STEM | 提取 | 推理 | 数学 | 编码 | 角色扮演 | 写作 | 人文 | ↑ 平均分 |
---|---|---|---|---|---|---|---|---|---|
gpt-3.5-turbo | 7.8 | 6.1 | 5.1 | 6.4 | 6.2 | 8.7 | 7.4 | 9.3 | 7.1 |
Yi-34B-Chat | 9.0 | 4.8 | 5.7 | 4.0 | 4.7 | 8.5 | 8.7 | 9.8 | 6.9 |
Qwen-14B-Chat | 7.6 | 5.7 | 4.5 | 4.2 | 5.3 | 7.5 | 7.3 | 9.1 | 6.4 |
Breeze-7B-Instruct-v0.1 | 6.5 | 5.6 | 3.9 | 3.6 | 4.3 | 6.9 | 5.7 | 9.3 | 5.7 |
Breeze-7B-Instruct-64k-v0.1 | 6.1 | 5.3 | 3.7 | 2.9 | 4.2 | 7.0 | 6.7 | 8.3 | 5.5 |
Qwen-7B-Chat | 6.6 | 4.5 | 4.8 | 2.9 | 3.6 | 6.2 | 6.8 | 8.2 | 5.4 |
Yi-6B-Chat | 7.3 | 2.7 | 3.1 | 3.3 | 2.3 | 7.2 | 5.2 | 8.8 | 5.0 |
Taiwan-LLM-13B-v2.0-chat | 6.1 | 3.4 | 4.1 | 2.3 | 3.1 | 7.4 | 6.6 | 6.8 | 5.0 |
Taiwan-LLM-7B-v2.1-chat | 5.2 | 2.6 | 2.3 | 1.2 | 3.4 | 6.6 | 5.7 | 6.8 | 4.2 |
TMMLU+(0 次提示)分类准确率
模型 | STEM | 社会科学 | 人文 | 其他 | ↑ 平均分 |
---|---|---|---|---|---|
Yi-34B-Chat | 47.65 | 64.25 | 52.73 | 54.91 | 54.87 |
Qwen-14B-Chat | 43.83 | 55.00 | 48.55 | 46.22 | 48.41 |
Yi-6B-Chat | 37.80 | 51.74 | 45.36 | 44.25 | 44.79 |
gpt-3.5-turbo | 41.56 | 46.72 | 36.73 | 42.03 | 41.76 |
Breeze-7B-Instruct-v0.1 | 37.41 | 46.81 | 42.06 | 40.16 | 41.61 |
Breeze-7B-Instruct-64k-v0.1 | 37.88 | 46.35 | 40.31 | 39.40 | 40.99 |
Qwen-7B-Chat | 35.44 | 46.22 | 38.35 | 40.06 | 40.02 |
Taiwan-LLM-13B-v2.0-chat | 27.74 | 33.69 | 27.03 | 29.43 | 29.47 |
Taiwan-LLM-7B-v2.1-chat | 25.58 | 31.76 | 27.36 | 27.61 | 28.08 |
推理性能
在本次测试中,我们使用 这篇网络文章 的前 700 个字符作为输入,要求模型重新撰写相同的文章。所有推理都在 2 块 RTX A6000 GPU 上运行(使用 vllm
,张量并行大小为 2)。
模型 | ↓ 推理时间(秒) | 估计最大输入长度(字符) |
---|---|---|
Yi-6B | 10.62 | 5.2k |
Breeze-7B-Instruct-v0.1 | 10.74 | 11.1k |
Breeze-7B-Instruct-64k-v0.1 | 10.74 | 88.8k |
Qwen-7B | 10.86 | 9.8k |
Qwen-14B | 18.89 | 9.8k |
Mistral-7B-v0.1 | 20.48 | 5.1k |
Taiwan-LLM-7B-v2.1-base | 26.26 | 2.2k |
Taiwan-LLM-13B-v2.0-base | 36.80 | 2.2k |
Yi-34B | 43.71 | 4.5k |
长上下文性能
待补充。
使用示例
待补充。
📄 许可证
本项目采用 Apache-2.0 许可证。



