Breeze-7B-Base-v0.1-GGUF开源语言模型 - 专为繁体中文设计，免费部署

首页

Breeze 7B Base V0.1 GGUF

由 audreyt 开发

Breeze-7B是基于Mistral-7B构建的语言模型家族，专为繁体中文设计，提供基础模型和指令调优版本。

大型语言模型中文开源协议:Apache-2.0 #繁体中文优化 #长文本处理 #高效推理

下载量 153

发布时间 : 1/13/2024

模型简介

Breeze-7B是一个针对繁体中文优化的语言模型家族，包含基础模型和指令调优版本，支持长上下文处理。

模型特点

扩展词汇表

词汇表从32k扩展到62k，更好地支持繁体中文

长上下文支持

基础版本支持8k令牌上下文，64k版本支持更长上下文处理

高效推理

在繁体中文上的推理速度是Mistral-7B和Llama 7B的两倍

模型能力

繁体中文文本生成

多轮对话

问答系统

文档摘要

知识问答

使用案例

对话系统

智能客服

用于繁体中文环境的客户服务对话系统

文档处理

长文档摘要

处理长达64k令牌的长文档摘要任务

🚀 Breeze-7B-Base-v0.1-GGUF

本项目包含了联发科研究院（MediaTek Research）的 Breeze-7B-Base-v0.1 模型的 GGUF 格式文件。GGUF 是一种新的模型格式，能让模型在更多客户端和库中使用。Breeze-7B 模型专为繁体中文使用场景设计，在推理速度和性能表现上都有不错的效果。

🚀 快速开始

安装依赖

首先安装直接依赖项：

pip install transformers torch accelerate

如果你想使用 flash-attention2 来加快推理速度，还需要安装以下依赖项：

pip install packaging ninja
pip install flash-attn

加载模型

在 transformers 中加载模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    model="MediaTek-Research/Breeze-7B-Instruct-v0.1",
    device_map="auto",
    torch_dtype=torch.bfloat16,
    use_flash_attn_2=True # 可选
)

查询模板结构

查询模板的结构遵循 Mistral-7B-Instruct 的格式，如下所示：

<s> SYS_PROMPT   [INST] QUERY1 [/INST] RESPONSE1 [INST] QUERY2 [/INST]

其中，SYS_PROMPT、QUERY1、RESPONSE1 和 QUERY2 可以由用户提供。

建议的默认系统提示

You are a helpful AI assistant built by MediaTek Research. The user you are helping speaks Traditional Chinese and comes from Taiwan.

✨ 主要特性

Breeze-7B-Base-v0.1

将词汇表大小从 32k 扩展到 62k，以更好地支持繁体中文。
支持 8k 标记的上下文长度。

Breeze-7B-Instruct-v0.1

将词汇表大小从 32k 扩展到 62k，以更好地支持繁体中文。
支持 8k 标记的上下文长度。
支持多轮对话（未对有害内容进行特殊处理）。

Breeze-7B-Instruct-64k-v0.1

将词汇表大小从 32k 扩展到 62k，以更好地支持繁体中文。
支持 64k 标记的上下文长度，约相当于 88k 个繁体中文字符。
支持多轮对话（未对有害内容进行特殊处理）。

📚 详细文档

模型创建者

MediaTek Research

原始模型

Breeze-7B-Base-v0.1

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式，它取代了不再被 llama.cpp 支持的 GGML 格式。以下是已知支持 GGUF 的客户端和库的不完全列表：

llama.cpp：GGUF 的源项目，提供了命令行界面和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持所有平台和 GPU 架构的 GPU 加速，特别适合讲故事。
GPT4All：一个免费开源的本地运行 GUI，支持 Windows、Linux 和 macOS，具备完整的 GPU 加速功能。
LM Studio：一个易于使用且功能强大的本地 GUI，适用于 Windows 和 macOS（Silicon），支持 GPU 加速，截至 2023 年 11 月 27 日，Linux 版本处于测试阶段。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
llama-cpp-python：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个专注于性能的 Rust ML 框架，包括 GPU 支持，且易于使用。
ctransformers：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日，ctransformers 已有很长时间未更新，不支持许多最新的模型。

原始模型介绍

Breeze-7B 是一个基于 Mistral-7B 构建的语言模型家族，专门为繁体中文使用场景设计。

Breeze-7B-Base：Breeze-7B 系列的基础模型，如果你有大量的微调数据来针对特定用例进行微调，它是一个合适的选择。
Breeze-7B-Instruct：从 Breeze-7B-Base 基础模型派生而来，可直接用于常见任务。
Breeze-7B-Instruct-64k：是 Breeze-7B-Instruct 的一个略微修改版本，支持 64k 标记的上下文长度，可处理文档级别的任务。

实用性表现

Breeze-7B-Base：在原有词汇表的基础上增加了 30,000 个繁体中文标记。在其他条件相同的情况下，Breeze-7B 对繁体中文的推理速度是 Mistral-7B 和 Llama 7B 的两倍。[详见推理性能。]
Breeze-7B-Instruct：可直接用于常见任务，如问答、检索式增强生成（RAG）、多轮聊天和摘要生成。
Breeze-7B-Instruct-64k：能够处理文档级别的任务，而不仅仅是章节级别的任务。

性能表现

Breeze-7B-Instruct：在繁体中文基准测试中表现出色，与同规模的开源模型（如 Taiwan-LLM-7B/13B-chat、QWen-7B-Chat 和 Yi-6B-Chat）相比具有优势。[详见聊天模型性能。]
Breeze-7B-Instruct：在 MMLU 和 MT-Bench 基准测试中与 Mistral-7B-Instruct-v0.1 表现相当。[详见聊天模型性能。]

项目成员

项目成员（按字母顺序排列）：Chan-Jan Hsu 許湛然、Chang-Le Liu 劉昶樂、Feng-Ting Liao 廖峰挺、Po-Chun Hsu 許博竣、Yi-Chang Chen 陳宜昌，以及导师 Da-Shan Shiu 許大山。

🔧 技术细节

模型详情

模型名称	微调来源	模型类型	支持语言
Breeze-7B-Base-v0.1	mistralai/Mistral-7B-v0.1	因果解码器型变压器语言模型	英语和繁体中文（zh-tw）
Breeze-7B-Instruct-v0.1	MediaTek-Research/Breeze-7B-Base-v0.1	因果解码器型变压器语言模型	英语和繁体中文（zh-tw）
Breeze-7B-Instruct-64k-v0.1	MediaTek-Research/Breeze-7B-Instruct-v0.1	因果解码器型变压器语言模型	英语和繁体中文（zh-tw）

基础模型性能

TMMLU+、DRCD 和 Table 的数据来源于 MediaTek-Research/TCEval-v2，该数据集派生自 TCEval-v1 和 ikala/tmmluplus。MMLU 的数据来源于 hails/mmlu_no_train。我们使用从 EleutherAI/lm-evaluation-harness 修改而来的代码来评估 TMMLU+、DRCD、Table 和 MMLU。

模型	规模	↑ TMMLU+ (ACC) （繁体中文，知识，5 次提示）	DRCD (EM) （繁体中文，推理，3 次提示）	Table (ACC) （繁体中文，推理，5 次提示）	MMLU (ACC) （英语，知识，5 次提示）
Yi-34B	34B	63.10	84.57	49.31	77.42
Qwen-14B	14B	51.30	16.95 *	50.69	68.83
Yi-6B	6B	49.63	76.61	34.72	65.35
Qwen-7B	7B	42.84	0.0 *	39.58	61.00
Breeze-7B-Base-v0.1	7B	40.35	81.13	28.47	61.63
Mistral-7B-v0.1	7B	36.93	79.27	27.78	64.89

注：* 少样本学习无法有效地引导模型生成合适的答案。

聊天模型性能

TMMLU+、DRCD、Table 和 MT-Bench-tw 的数据来源于 MediaTek-Research/TCEval-v2，该数据集派生自 TCEval-v1 和 ikala/tmmluplus。MMLU 的数据来源于 hails/mmlu_no_train。MT-Bench 的数据来源于 lmsys/mt_bench_human_judgments。我们使用从 EleutherAI/lm-evaluation-harness 修改而来的代码来评估 TMMLU+、DRCD、Table 和 MMLU。使用从 fastchat llm_judge（以 GPT4 作为评判）修改而来的代码来评估 MT-Bench-tw 和 MT-Bench。

模型	规模	↑ MT-Bench-tw (Score) （繁体中文，聊天，0 次提示）	TMMLU+ (ACC) （繁体中文，知识，0 次提示）	TMMLU+ (ACC) （繁体中文，知识，5 次提示）	DRCD (EM) （繁体中文，推理，3 次提示）	Table (ACC) （繁体中文，推理，0 次提示）	MT-Bench (Score) （英语，聊天，0 次提示）	MMLU (ACC) （英语，知识，0 次提示）	MMLU (ACC) （英语，知识，5 次提示）
gpt-3.5-turbo	-	7.1	41.76	-	-	-	7.9	70.00	-
Yi-34B-Chat	34B	6.9	54.87	-	-	36.81	7.6	71.04	-
Qwen-14B-Chat	14B	6.4	48.41	-	-	41.67	7.2	64.91	-
Breeze-7B-Instruct-v0.1	7B	5.7	41.61	-	-	45.83	7.1	63.26	-
Breeze-7B-Instruct-64k-v0.1	7B	5.5	40.99	-	-	36.11	7.1	63.68	-
Qwen-7B-Chat	7B	5.4	40.02	-	-	33.33	6.2	55.94	-
Yi-6B-Chat	6B	5.0	44.79	-	-	25.69	6.0	59.45	-
Taiwan-LLM-13B-v2.0-chat	13B	5.0	29.47	-	-	23.61	- *	50.50	-
Taiwan-LLM-7B-v2.1-chat	7B	4.2	28.08	-	-	31.25	- *	42.72	-

注：* 台湾 LLM 模型以繁体中文回答多轮问题（英语）。

MT-Bench-tw（0 次提示）分类得分

模型	STEM	提取	推理	数学	编码	角色扮演	写作	人文	↑ 平均分
gpt-3.5-turbo	7.8	6.1	5.1	6.4	6.2	8.7	7.4	9.3	7.1
Yi-34B-Chat	9.0	4.8	5.7	4.0	4.7	8.5	8.7	9.8	6.9
Qwen-14B-Chat	7.6	5.7	4.5	4.2	5.3	7.5	7.3	9.1	6.4
Breeze-7B-Instruct-v0.1	6.5	5.6	3.9	3.6	4.3	6.9	5.7	9.3	5.7
Breeze-7B-Instruct-64k-v0.1	6.1	5.3	3.7	2.9	4.2	7.0	6.7	8.3	5.5
Qwen-7B-Chat	6.6	4.5	4.8	2.9	3.6	6.2	6.8	8.2	5.4
Yi-6B-Chat	7.3	2.7	3.1	3.3	2.3	7.2	5.2	8.8	5.0
Taiwan-LLM-13B-v2.0-chat	6.1	3.4	4.1	2.3	3.1	7.4	6.6	6.8	5.0
Taiwan-LLM-7B-v2.1-chat	5.2	2.6	2.3	1.2	3.4	6.6	5.7	6.8	4.2

TMMLU+（0 次提示）分类准确率

模型	STEM	社会科学	人文	其他	↑ 平均分
Yi-34B-Chat	47.65	64.25	52.73	54.91	54.87
Qwen-14B-Chat	43.83	55.00	48.55	46.22	48.41
Yi-6B-Chat	37.80	51.74	45.36	44.25	44.79
gpt-3.5-turbo	41.56	46.72	36.73	42.03	41.76
Breeze-7B-Instruct-v0.1	37.41	46.81	42.06	40.16	41.61
Breeze-7B-Instruct-64k-v0.1	37.88	46.35	40.31	39.40	40.99
Qwen-7B-Chat	35.44	46.22	38.35	40.06	40.02
Taiwan-LLM-13B-v2.0-chat	27.74	33.69	27.03	29.43	29.47
Taiwan-LLM-7B-v2.1-chat	25.58	31.76	27.36	27.61	28.08

推理性能

在本次测试中，我们使用这篇网络文章的前 700 个字符作为输入，要求模型重新撰写相同的文章。所有推理都在 2 块 RTX A6000 GPU 上运行（使用 vllm，张量并行大小为 2）。

模型	↓ 推理时间（秒）	估计最大输入长度（字符）
Yi-6B	10.62	5.2k
Breeze-7B-Instruct-v0.1	10.74	11.1k
Breeze-7B-Instruct-64k-v0.1	10.74	88.8k
Qwen-7B	10.86	9.8k
Qwen-14B	18.89	9.8k
Mistral-7B-v0.1	20.48	5.1k
Taiwan-LLM-7B-v2.1-base	26.26	2.2k
Taiwan-LLM-13B-v2.0-base	36.80	2.2k
Yi-34B	43.71	4.5k