language:
- 英文
- 日文
library_name: transformers
pipeline_tag: 文本生成
tag: 混合专家模型
license: apache-2.0
Swallow-MX-8x7b-NVE-v0.1
我们的Swallow-MX-8x7b-NVE-v0.1模型是在Mixtral-8x7B-Instruct-v0.1基础上进行持续预训练的成果,主要增加了日语数据。

模型详情
- 模型类型: 关于模型架构的详细信息,请参阅Mixtral技术报告。
- 支持语言: 日语、英语
- 分词器: 本模型使用与Mixtral-8x7B-Instruct-v0.1相同的分词器。
- 联系方式: swallow[at]nlp.c.titech.ac.jp
基础模型性能
日语版本
模型 |
大小 |
JCommonsenseQA |
JEMHopQA |
NIILC |
JSQuAD |
XL-Sum |
MGSM |
WMT20-en-ja |
WMT20-ja-en |
|
|
4样本 |
4样本 |
4样本 |
4样本 |
1样本 |
4样本 |
4样本 |
4样本 |
Llama 2 |
7B |
0.3852 |
0.4240 |
0.3410 |
0.7917 |
0.1905 |
0.0760 |
0.1783 |
0.1738 |
Swallow |
7B |
0.4808 |
0.5078 |
0.5968 |
0.8573 |
0.1830 |
0.1240 |
0.2510 |
0.1511 |
Swallow-Plus |
7B |
0.5478 |
0.5493 |
0.6030 |
0.8544 |
0.1806 |
0.1360 |
0.2568 |
0.1441 |
Swallow-NVE |
7B |
0.5433 |
0.5425 |
0.5729 |
0.8684 |
0.2117 |
0.1200 |
0.2405 |
0.1512 |
Mistral-7B-v0.1 |
7B |
0.7301 |
0.4245 |
0.2722 |
0.8563 |
0.2006 |
0.1760 |
0.1405 |
0.1733 |
Swallow-MS-7b-v0.1 |
7B |
0.8570 |
0.4915 |
0.5519 |
0.8802 |
0.1988 |
0.2240 |
0.2494 |
0.1667 |
Llama 2 |
13B |
0.6997 |
0.4415 |
0.4170 |
0.8533 |
0.2139 |
0.1320 |
0.2146 |
0.1982 |
Swallow |
13B |
0.7837 |
0.5063 |
0.6398 |
0.9005 |
0.2168 |
0.2040 |
0.2720 |
0.1771 |
Swallow-NVE |
13B |
0.7712 |
0.5438 |
0.6351 |
0.9030 |
0.2294 |
0.2120 |
0.2735 |
0.1817 |
Llama 2 |
70B |
0.8686 |
0.4656 |
0.5256 |
0.9080 |
0.2361 |
0.3560 |
0.2643 |
0.2398 |
Swallow |
70B |
0.9348 |
0.6290 |
0.6960 |
0.9176 |
0.2266 |
0.4840 |
0.3043 |
0.2298 |
Swallow-NVE |
70B |
0.9410 |
0.5759 |
0.7024 |
0.9254 |
0.2758 |
0.4720 |
0.3042 |
0.2322 |
Mixtral-8x7B-v0.1 |
8x7B |
0.8347 |
0.5335 |
0.3549 |
0.8847 |
0.2192 |
0.3120 |
0.1970 |
0.1987 |
Swallow-MX-8x7b-NVE-v0.1 |
8x7B |
0.9258 |
0.5843 |
0.5687 |
0.9148 |
0.2589 |
0.4360 |
0.2705 |
0.2074 |
英语版本
模型 |
大小 |
OpenBookQA |
TriviaQA |
HellaSwag |
SQuAD2.0 |
XWINO |
GSM8K |
|
|
8样本 |
8样本 |
8样本 |
8样本 |
8样本 |
8样本 |
Llama 2 |
7B |
0.3580 |
0.6265 |
0.5860 |
0.3207 |
0.9049 |
0.1410 |
Swallow |
7B |
0.3180 |
0.4836 |
0.5308 |
0.3125 |
0.8817 |
0.1130 |
Swallow-Plus |
7B |
0.3280 |
0.4558 |
0.5259 |
0.3134 |
0.8929 |
0.1061 |
Swallow-NVE |
7B |
0.3180 |
0.5079 |
0.5329 |
0.2919 |
0.8817 |
0.0986 |
Mistral-7B-v0.1 |
7B |
0.3660 |
0.7050 |
0.6264 |
0.3799 |
0.9157 |
0.3533 |
Swallow-MS-7b-v0.1 |
7B |
0.3440 |
0.5976 |
0.5810 |
0.3364 |
0.9037 |
0.2623 |
Llama 2 |
13B |
0.3760 |
0.7255 |
0.6148 |
0.3681 |
0.9140 |
0.2403 |
Swallow |
13B |
0.3500 |
0.5852 |
0.5660 |
0.3406 |
0.9075 |
0.2039 |
Swallow-NVE |
13B |
0.3460 |
0.6025 |
0.5700 |
0.3478 |
0.9006 |
0.1751 |
Llama 2 |
70B |
0.4280 |
0.8239 |
0.6742 |
0.3770 |
0.9290 |
0.5284 |
Swallow |
70B |
0.4220 |
0.7756 |
0.6458 |
0.3745 |
0.9204 |
0.4867 |
Swallow-NVE |
70B |
0.4240 |
0.7817 |
0.6439 |
0.3451 |
0.9256 |
0.4943 |
Mixtral-8x7B-v0.1 |
8x7B |
0.3960 |
0.7989 |
0.6678 |
0.3842 |
0.9204 |
0.5747 |
Swallow-MX-8x7b-NVE-v0.1 |
8x7B |
0.3740 |
0.7847 |
0.6520 |
0.3801 |
0.9170 |
0.5694 |
请注意,Swallow-MX-8x7b-NVE-v0.1并非基于Mixtral-8x7B-v0.1开发,而是在Mixtral-8x7B-Instruct-v0.1基础上进行持续预训练的产物。
使用方法
首先安装requirements.txt中的额外依赖:
pip install -r requirements.txt
使用基础模型
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
prompt = "东京工业大学的主校区位于"
input_ids = tokenizer.encode(
prompt,
add_special_tokens=False,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
temperature=0.99,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
训练数据集
持续预训练
以下数据集用于持续预训练:
风险与限制
当前发布的模型仍处于研发初期阶段,尚未经过充分调优以确保输出符合人类意图和安全考量。
致谢
我们感谢Mistral AI以开放许可协议发布Mixtral-8x7B-Instruct-v0.1模型,使他人能够在此基础上继续开发。
本项目获得日本产业技术综合研究所ABCI大规模语言模型构建支持计划的支持。
许可证
apache-2.0
作者团队
团队成员包括:
引用方式
如果您发现我们的工作有帮助,欢迎引用:
@inproceedings{Fujii:COLM2024,
title={持续预训练实现跨语言大模型适配:
增强日语能力},
author={藤井一树 and 中村大志 and Mengsay Loem and 饭田浩树
and 大井正成 and 服部翔 and 平井翔太 and 水崎荣 and 横田理央 and 冈崎直昭},
booktitle="第一届语言建模会议论文集",
series={COLM},
pages="(待刊)",
year="2024",
month=10,
address={美国宾夕法尼亚大学},
}
@inproceedings{Okazaki:COLM2024,
title={构建面向大模型的日语网络语料库},
author={冈崎直昭 and 服部翔 and 平井翔太 and 饭田浩树
and 大井正成 and 藤井一树 and 中村大志 and Mengsay
Loem and 横田理央 and 水崎荣},