language:
- 英文
- 日文
library_name: transformers
pipeline_tag: text-generation
model_type: mistral
license: apache-2.0
Swallow-MS-7b-v0.1
我们的Swallow-MS-7b-v0.1模型基于Mistral-7B-v0.1进行了持续预训练,主要增加了日语数据。
模型发布更新
我们很高兴分享最新模型的发布计划:
此仓库提供由TokyoTech-LLM开发的大语言模型。
模型详情
- 模型类型:关于模型架构的详细信息,请参考Mistral技术报告。
- 语言:日语、英语
- 分词器:此模型采用了一个基于日语数据扩展词汇的分词器,能够更高效地用更少的token表示文本,从而显著加快推理过程。
- 联系方式:swallow[at]nlp.c.titech.ac.jp
指令模型性能
MT-Bench JA
轮次性能
我们报告了整体(即第一轮和第二轮得分的平均值)、第一轮和第二轮的得分。
整体
模型 |
平均 |
写作 |
角色扮演 |
推理 |
数学 |
编程 |
提取 |
STEM |
人文 |
Swallow-MS-7b-instruct-v0.1 |
0.3411 |
0.3770 |
0.4290 |
0.3454 |
0.1040 |
0.2400 |
0.3677 |
0.3907 |
0.4750 |
第一轮
模型 |
平均 |
写作 |
角色扮演 |
推理 |
数学 |
编程 |
提取 |
STEM |
人文 |
Swallow-MS-7b-instruct-v0.1 |
0.3699 |
0.4880 |
0.4260 |
0.3900 |
0.1080 |
0.2364 |
0.3780 |
0.4500 |
0.4800 |
第二轮
模型 |
平均 |
写作 |
角色扮演 |
推理 |
数学 |
编程 |
提取 |
STEM |
人文 |
Swallow-MS-7b-instruct-v0.1 |
0.3130 |
0.2624 |
0.4320 |
0.2996 |
0.1000 |
0.2430 |
0.3564 |
0.3291 |
0.4700 |
与过去模型的比较
本节仅提供整体得分。
模型 |
平均 |
写作 |
角色扮演 |
推理 |
数学 |
编程 |
提取 |
STEM |
人文 |
Swallow-MS-7b-instruct-v0.1 |
0.3411 |
0.3770 |
0.4290 |
0.3454 |
0.1040 |
0.2400 |
0.3677 |
0.3907 |
0.4750 |
ELYZA-japanese-Llama-2-7b-fast-instruct |
0.2827 |
0.3289 |
0.3907 |
0.2424 |
0.1480 |
0.1584 |
0.3511 |
0.3053 |
0.3365 |
calm2-7b-chat |
0.3204 |
0.4657 |
0.4898 |
0.1837 |
0.1005 |
0.1414 |
0.3927 |
0.3601 |
0.4293 |
calm2-7b-chat-dpo-experimental |
0.3493 |
0.5312 |
0.5237 |
0.1857 |
0.1000 |
0.1813 |
0.3355 |
0.4320 |
0.5051 |
RakutenAI-7B-instruct |
0.2994 |
0.3623 |
0.3711 |
0.3333 |
0.1763 |
0.1581 |
0.4215 |
0.2824 |
0.2901 |
RakutenAI-7B-chat |
0.3667 |
0.4229 |
0.4644 |
0.3990 |
0.2161 |
0.2390 |
0.3416 |
0.3904 |
0.4601 |
评估基准
MT-Bench JA
我们使用日语MT-Bench来评估模型的指令遵循能力。
我们采用了以下设置:
使用方法
首先安装requirements.txt中的额外依赖:
pip install -r requirements.txt
指令格式 Ver0.1
必须严格遵守此格式,因为偏离可能导致模型输出不理想。
用于构建Instruct模型提示的模板如下:
<s>[INST] <<SYS>>\n{SYSTEM_PROMPT}\n<</SYS>>\n\n{USER_MESSAGE_1} [/INST] {BOT_MESSAGE_1}</s>[INST] {USER_MESSAGE_2} [/INST]
请注意,<s>
和</s>
是用于字符串开头(BOS)和结尾(EOS)的特殊token,而[INST]和[/INST]被视为常规字符串。
对于"{SYSTEM_PROMPT}"部分,我们建议使用"あなたは誠実で優秀な日本人のアシスタントです。"(您是一位诚实且优秀的日本助手。)
对于"{USER_MESSAGE_1}"部分,我们建议使用{instruction}\n{input}
换句话说,我们建议如下:
<s>[INST] <<SYS>>\nあなたは誠実で優秀な日本人のアシスタントです。\n<</SYS>>\n\n{instruction1}\n{input1} [/INST] {BOT_MESSAGE_1}</s>[INST] {instruction2}\n{input2} [/INST]
使用指令模型 Ver0.1
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "tokyotech-llm/Swallow-MS-7b-instruct-v0.1"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
device = "cuda"
messages = [
{"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
{"role": "user", "content": "東京工業大学の主なキャンパスについて教えてください"}
]
encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = encodeds.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=128, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
训练数据集
指令调优 Ver0.1
以下数据集用于指令调优。
请注意,部分数据存在质量或格式问题,因此并未全部使用。
风险与限制
此处发布的模型仍处于研发早期阶段,尚未经过调整以确保输出符合人类意图和安全考虑。
致谢
我们感谢Mistral AI以开放许可证发布Mistral 7B v0.1,供他人在此基础上构建。
我们的项目得到了日本产业技术综合研究所ABCI大规模语言模型构建支持计划的支持。
许可证
apache-2.0
作者
团队成员包括:
如何引用
如果您发现我们的工作有帮助,请随时引用我们。
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}