Swallow MS 7b V0.1
Swallow-MS-7b-v0.1是基于Mistral-7B-v0.1持续预训练的日语增强模型,由TokyoTech-LLM开发,在日语任务上表现优异。
下载量 736
发布时间 : 2/1/2024
模型简介
该模型是在Mistral-7B-v0.1基础上增加了日语数据预训练而成,主要用于日语和英语的文本生成任务。
模型特点
日语优化
通过增加日语数据预训练,显著提升了日语任务表现
高效分词
扩展了日语词汇的分词器,能以更少标记表示文本,加快推理速度
多任务能力
在问答、阅读理解、摘要等多种任务上表现优异
模型能力
日语文本生成
英语文本生成
问答系统
机器翻译
文本摘要
代码生成
使用案例
自然语言处理
日语问答系统
构建日语知识问答应用
在JCommonsenseQA上达到85.7%准确率
日英机器翻译
日英双向翻译系统
在WMT20评测中表现优异
教育
日语学习助手
帮助学习者理解和生成日语文本
🚀 Swallow-MS-7b-v0.1
我们的 Swallow-MS-7b-v0.1 模型在 Mistral-7B-v0.1 的基础上进行了持续预训练,主要增加了日语语言数据,提升了模型在日语和英语上的表现能力。
🚀 快速开始
本仓库提供了由 TokyoTech-LLM 开发的大语言模型。若要使用该模型,需先安装额外依赖:
pip install -r requirements.txt
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "tokyotech-llm/Swallow-MS-7b-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
prompt = "東京工業大学の主なキャンパスは、"
input_ids = tokenizer.encode(
prompt,
add_special_tokens=False,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
temperature=0.99,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
✨ 主要特性
- 基于 Mistral-7B-v0.1 进行持续预训练,增加了日语语言数据。
- 采用了基于日语数据扩展词汇表的分词器,推理速度更快。
📦 安装指南
首先安装 requirements.txt 中的额外依赖:
pip install -r requirements.txt
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "tokyotech-llm/Swallow-MS-7b-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
prompt = "東京工業大学の主なキャンパスは、"
input_ids = tokenizer.encode(
prompt,
add_special_tokens=False,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
temperature=0.99,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
📚 详细文档
模型发布更新
我们很高兴分享最新模型的发布计划:
- 2024 年 4 月 26 日:发布了 Swallow-MS-7b-instruct-v0.1
- 2024 年 3 月 11 日:发布了 Swallow-MS-7b-v0.1
模型详情
属性 | 详情 |
---|---|
模型类型 | 模型架构详情请参考 Mistral 技术报告。 |
语言 | 日语、英语 |
分词器 | 该模型采用了基于日语数据扩展词汇表的分词器,能使用更少的标记更有效地表示文本,从而显著加快推理过程。 |
联系方式 | swallow[at]nlp.c.titech.ac.jp |
基础模型性能
日语任务
模型 | 规模 | JCommonsenseQA | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20-en-ja | WMT20-ja-en | 平均 |
---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 1-shot | 4-shot | 4-shot | 4-shot | |||
CyberAgentLM2-7B | 7B | 0.2198 | 0.5047 | 0.5066 | 0.7799 | 0.0233 | 0.0600 | 0.2345 | 0.1499 | 0.3098 |
Llama 2 | 7B | 0.3852 | 0.4240 | 0.3410 | 0.7917 | 0.1905 | 0.0760 | 0.1783 | 0.1738 | 0.3201 |
japanese-stablelm-base-beta-7b | 7B | 0.3610 | 0.4478 | 0.4432 | 0.8318 | 0.2195 | 0.0720 | 0.1946 | 0.1226 | 0.3366 |
japanese-stablelm-base-ja_vocab-beta-7b | 7B | 0.2172 | 0.4482 | 0.4309 | 0.8202 | 0.0757 | 0.0520 | 0.1601 | 0.1453 | 0.2937 |
ELYZA-japanese-Llama-2-7b | 7B | 0.5791 | 0.4703 | 0.4019 | 0.8226 | 0.1312 | 0.0600 | 0.1795 | 0.1289 | 0.3467 |
ELYZA-japanese-Llama-2-7b-fast | 7B | 0.5308 | 0.4330 | 0.3898 | 0.8131 | 0.1289 | 0.0720 | 0.1678 | 0.1143 | 0.3312 |
youri-7b (base) | 7B | 0.4620 | 0.4776 | 0.4999 | 0.8506 | 0.1957 | 0.0640 | 0.2671 | 0.1971 | 0.3768 |
Swallow-7b | 7B | 0.4808 | 0.5078 | 0.5968 | 0.8573 | 0.1830 | 0.1240 | 0.2510 | 0.1511 | 0.3940 |
Swallow-7b-plus | 7B | 0.5478 | 0.5493 | 0.6030 | 0.8544 | 0.1806 | 0.1360 | 0.2568 | 0.1441 | 0.4090 |
Qwen-7B | 7B | 0.7712 | 0.4234 | 0.2376 | 0.8594 | 0.1371 | 0.2160 | 0.1689 | 0.1801 | 0.3742 |
nekomata-7b | 7B | 0.7417 | 0.4928 | 0.5022 | 0.8707 | 0.1676 | 0.1240 | 0.2673 | 0.1815 | 0.4185 |
Mistral-7B-v0.1 | 7B | 0.7301 | 0.4245 | 0.2722 | 0.8563 | 0.2006 | 0.1760 | 0.1405 | 0.1733 | 0.3717 |
japanese-stablelm-base-gamma-7b | 7B | 0.7364 | 0.4643 | 0.5568 | 0.8910 | 0.2293 | 0.1680 | 0.2390 | 0.1561 | 0.4301 |
Swallow-MS-7b-v0.1 | 7B | 0.8570 | 0.4915 | 0.5519 | 0.8802 | 0.1988 | 0.2240 | 0.2494 | 0.1667 | 0.4524 |
英语任务
模型 | 规模 | OpenBookQA | TriviaQA | HellaSwag | SQuAD2.0 | XWINO | GSM8K | 平均 |
---|---|---|---|---|---|---|---|---|
8-shot | 8-shot | 8-shot | 8-shot | 8-shot | 8-shot | |||
CyberAgentLM2-7B | 7B | 0.2860 | 0.3496 | 0.5003 | 0.3510 | 0.8581 | 0.0705 | 0.4026 |
Llama 2 | 7B | 0.3580 | 0.6265 | 0.5860 | 0.3207 | 0.9049 | 0.1410 | 0.4895 |
japanese-stablelm-base-beta-7b | 7B | 0.3620 | 0.5903 | 0.5707 | 0.2992 | 0.8994 | 0.1198 | 0.4736 |
japanese-stablelm-base-ja_vocab-beta-7b | 7B | 0.3520 | 0.5549 | 0.5644 | 0.3079 | 0.8942 | 0.0538 | 0.4545 |
ELYZA-japanese-Llama-2-7b | 7B | 0.3400 | 0.5875 | 0.5595 | 0.2721 | 0.8989 | 0.1638 | 0.4703 |
ELYZA-japanese-Llama-2-7b-fast | 7B | 0.3280 | 0.5817 | 0.5530 | 0.2605 | 0.8989 | 0.1425 | 0.4608 |
youri-7b (base) | 7B | 0.3400 | 0.5257 | 0.5540 | 0.3297 | 0.8938 | 0.0963 | 0.4566 |
Swallow-7b | 7B | 0.3180 | 0.4836 | 0.5308 | 0.3125 | 0.8817 | 0.1130 | 0.4399 |
Swallow-7b-plus | 7B | 0.3280 | 0.4558 | 0.5259 | 0.3134 | 0.8929 | 0.1061 | 0.4370 |
Qwen-7B | 7B | 0.3640 | 0.5695 | 0.5787 | 0.3799 | 0.8933 | 0.4617 | 0.5412 |
nekomata-7b | 7B | 0.3340 | 0.4371 | 0.5340 | 0.2933 | 0.8766 | 0.1531 | 0.4380 |
Mistral-7B-v0.1 | 7B | 0.3660 | 0.7050 | 0.6264 | 0.3799 | 0.9157 | 0.3533 | 0.5577 |
japanese-stablelm-base-gamma-7b | 7B | 0.3240 | 0.5745 | 0.5739 | 0.3546 | 0.8976 | 0.1911 | 0.4860 |
Swallow-MS-7b-v0.1 | 7B | 0.3440 | 0.5976 | 0.5810 | 0.3364 | 0.9037 | 0.2623 | 0.5042 |
代码生成任务
模型 | 规模 | JHumanEval | HumanEval |
---|---|---|---|
pass@1 | pass@1 | ||
CyberAgentLM2-7B | 7B | 0.0634 | 0.0756 |
Llama 2 | 7B | 0.1152 | 0.1378 |
japanese-stablelm-base-beta-7b | 7B | 0.1018 | 0.1280 |
japanese-stablelm-base-ja_vocab-beta-7b | 7B | 0.0896 | 0.1122 |
ELYZA-japanese-Llama-2-7b | 7B | 0.0287 | 0.0427 |
ELYZA-japanese-Llama-2-7b-fast | 7B | 0.0000 | 0.0037 |
youri-7b (base) | 7B | 0.0829 | 0.0982 |
Swallow-7b | 7B | 0.0183 | 0.0183 |
Swallow-7b-plus | 7B | 0.0061 | 0.0037 |
Qwen-7B | 7B | 0.1701 | 0.1805 |
nekomata-7b | 7B | 0.0988 | 0.1402 |
Mistral-7B-v0.1 | 7B | 0.2555 | 0.2933 |
japanese-stablelm-base-gamma-7b | 7B | 0.1823 | 0.1915 |
Swallow-MS-7b-v0.1 | 7B | 0.2305 | 0.2768 |
评估基准
日语评估基准
我们使用了 llm-jp-eval(v1.0.0) 和 JP Language Model Evaluation Harness(提交编号 #9b42d41)。详情如下:
- 多项选择题回答 (JCommonsenseQA [Kurihara+, 2022])
- 开放式问题回答 (JEMHopQA [Ishii+, 2023])
- 开放式问题回答 (NIILC [Sekine, 2003])
- 机器阅读理解 (JSQuAD [Kurihara+, 2022])
- 自动摘要 (XL-Sum [Hasan+, 2021])
- 机器翻译 (WMT2020 ja-en [Barrault+, 2020])
- 机器翻译 (WMT2020 en-ja [Barrault+, 2020])
- 数学推理 (MGSM [Shi+, 2023])
英语评估基准
我们使用了 Language Model Evaluation Harness(v.0.3.0)。详情如下:
- 多项选择题回答 (OpenBookQA [Mihaylov+, 2018])
- 开放式问题回答 (TriviaQA [Joshi+, 2017])
- 机器阅读理解 (SQuAD 2.0 [Rajpurkar+, 2018])
- 常识推理 (XWINO [Tikhonov & Ryabinin, 2021])
- 自然语言推理 (HellaSwag [Zellers+, 2019])
- 数学推理 (GSM8k [Cobbe+, 2021])
代码评估基准
我们使用了 Code Generation LM Evaluation Harness [Allal+, 2022] (提交编号 #0261c52)。详情如下:
- 代码生成 (HumanEval [Chen+, 2021])
- 日语代码生成 (JHumanEval [Satoh+, 2024])
训练数据集
持续预训练
以下数据集用于持续预训练:
风险与局限性
此处发布的模型仍处于我们研究和开发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考虑。
致谢
我们感谢 Mistral AI 以开放许可证发布 Mistral 7B v0.1,以便其他人在此基础上进行开发。
我们的项目得到了国立先进工业科学技术研究所 ABCI 大规模语言模型构建支持计划 的支持。
许可证
apache-2.0
作者
以下是团队成员:
- 来自 Okazaki 实验室 的成员:
- 来自 YOKOTA 实验室 的成员:
如何引用
如果您认为我们的工作有帮助,请随时引用我们。
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
⚠️ 重要提示
此处发布的模型仍处于我们研究和开发的早期阶段,尚未进行调整以确保输出符合人类意图和安全考虑。
💡 使用建议
若要使用该模型,需先安装 requirements.txt 中的额外依赖。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文