Swallow MX 8x7b NVE V0.1
S
Swallow MX 8x7b NVE V0.1
由 tokyotech-llm 开发
Swallow-MX-8x7b-NVE-v0.1是基于Mixtral-8x7B-Instruct-v0.1进行持续预训练的混合专家模型,主要增强了日语能力。
下载量 1,293
发布时间 : 2/22/2024
模型简介
该模型在Mixtral-8x7B-Instruct-v0.1基础上通过增加日语数据进行了持续预训练,支持日语和英语,适用于多种文本生成任务。
模型特点
增强的日语能力
通过持续预训练增加了日语数据,显著提升了日语文本生成能力。
混合专家架构
采用8x7B的混合专家模型架构,能够高效处理复杂任务。
多语言支持
同时支持日语和英语,适用于跨语言应用场景。
模型能力
日语文本生成
英语文本生成
问答系统
文本摘要
使用案例
教育
日语学习辅助
帮助学生生成日语学习材料和练习题。
提升日语学习效率
内容创作
多语言内容生成
为网站或应用生成日语和英语内容。
节省内容创作时间
🚀 Swallow-MX-8x7b-NVE-v0.1
Swallow-MX-8x7b-NVE-v0.1模型是在Mixtral-8x7B-Instruct-v0.1的基础上进行持续预训练得到的,主要增加了日语数据,提升了模型在日语和英语上的性能。
🚀 快速开始
首先,安装requirements.txt中的额外依赖:
pip install -r requirements.txt
使用基础模型
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
prompt = "東京工業大学の主なキャンパスは、"
input_ids = tokenizer.encode(
prompt,
add_special_tokens=False,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
temperature=0.99,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
✨ 主要特性
- 基于Mixtral-8x7B-Instruct-v0.1持续预训练,增强了日语语言能力。
- 支持日语和英语两种语言。
- 在多个基准测试中表现出色。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | 具体模型架构详情请参考Mixtral技术报告。 |
语言 | 日语、英语 |
分词器 | 该模型使用与Mixtral-8x7B-Instruct-v0.1相同的分词器。 |
联系方式 | swallow[at]nlp.c.titech.ac.jp |
基础模型性能
日语版本
模型 | 规模 | JCommonsenseQA(4-shot) | JEMHopQA(4-shot) | NIILC(4-shot) | JSQuAD(4-shot) | XL-Sum(1-shot) | MGSM(4-shot) | WMT20-en-ja(4-shot) | WMT20-ja-en(4-shot) |
---|---|---|---|---|---|---|---|---|---|
Llama 2 | 7B | 0.3852 | 0.4240 | 0.3410 | 0.7917 | 0.1905 | 0.0760 | 0.1783 | 0.1738 |
Swallow | 7B | 0.4808 | 0.5078 | 0.5968 | 0.8573 | 0.1830 | 0.1240 | 0.2510 | 0.1511 |
Swallow-Plus | 7B | 0.5478 | 0.5493 | 0.6030 | 0.8544 | 0.1806 | 0.1360 | 0.2568 | 0.1441 |
Swallow-NVE | 7B | 0.5433 | 0.5425 | 0.5729 | 0.8684 | 0.2117 | 0.1200 | 0.2405 | 0.1512 |
Mistral-7B-v0.1 | 7B | 0.7301 | 0.4245 | 0.2722 | 0.8563 | 0.2006 | 0.1760 | 0.1405 | 0.1733 |
Swallow-MS-7b-v0.1 | 7B | 0.8570 | 0.4915 | 0.5519 | 0.8802 | 0.1988 | 0.2240 | 0.2494 | 0.1667 |
Llama 2 | 13B | 0.6997 | 0.4415 | 0.4170 | 0.8533 | 0.2139 | 0.1320 | 0.2146 | 0.1982 |
Swallow | 13B | 0.7837 | 0.5063 | 0.6398 | 0.9005 | 0.2168 | 0.2040 | 0.2720 | 0.1771 |
Swallow-NVE | 13B | 0.7712 | 0.5438 | 0.6351 | 0.9030 | 0.2294 | 0.2120 | 0.2735 | 0.1817 |
Llama 2 | 70B | 0.8686 | 0.4656 | 0.5256 | 0.9080 | 0.2361 | 0.3560 | 0.2643 | 0.2398 |
Swallow | 70B | 0.9348 | 0.6290 | 0.6960 | 0.9176 | 0.2266 | 0.4840 | 0.3043 | 0.2298 |
Swallow-NVE | 70B | 0.9410 | 0.5759 | 0.7024 | 0.9254 | 0.2758 | 0.4720 | 0.3042 | 0.2322 |
Mixtral-8x7B-v0.1 | 8x7B | 0.8347 | 0.5335 | 0.3549 | 0.8847 | 0.2192 | 0.3120 | 0.1970 | 0.1987 |
Swallow-MX-8x7b-NVE-v0.1 | 8x7B | 0.9258 | 0.5843 | 0.5687 | 0.9148 | 0.2589 | 0.4360 | 0.2705 | 0.2074 |
英语版本
模型 | 规模 | OpenBookQA(8-shot) | TriviaQA(8-shot) | HellaSwag(8-shot) | SQuAD2.0(8-shot) | XWINO(8-shot) | GSM8K(8-shot) |
---|---|---|---|---|---|---|---|
Llama 2 | 7B | 0.3580 | 0.6265 | 0.5860 | 0.3207 | 0.9049 | 0.1410 |
Swallow | 7B | 0.3180 | 0.4836 | 0.5308 | 0.3125 | 0.8817 | 0.1130 |
Swallow-Plus | 7B | 0.3280 | 0.4558 | 0.5259 | 0.3134 | 0.8929 | 0.1061 |
Swallow-NVE | 7B | 0.3180 | 0.5079 | 0.5329 | 0.2919 | 0.8817 | 0.0986 |
Mistral-7B-v0.1 | 7B | 0.3660 | 0.7050 | 0.6264 | 0.3799 | 0.9157 | 0.3533 |
Swallow-MS-7b-v0.1 | 7B | 0.3440 | 0.5976 | 0.5810 | 0.3364 | 0.9037 | 0.2623 |
Llama 2 | 13B | 0.3760 | 0.7255 | 0.6148 | 0.3681 | 0.9140 | 0.2403 |
Swallow | 13B | 0.3500 | 0.5852 | 0.5660 | 0.3406 | 0.9075 | 0.2039 |
Swallow-NVE | 13B | 0.3460 | 0.6025 | 0.5700 | 0.3478 | 0.9006 | 0.1751 |
Llama 2 | 70B | 0.4280 | 0.8239 | 0.6742 | 0.3770 | 0.9290 | 0.5284 |
Swallow | 70B | 0.4220 | 0.7756 | 0.6458 | 0.3745 | 0.9204 | 0.4867 |
Swallow-NVE | 70B | 0.4240 | 0.7817 | 0.6439 | 0.3451 | 0.9256 | 0.4943 |
Mixtral-8x7B-v0.1 | 8x7B | 0.3960 | 0.7989 | 0.6678 | 0.3842 | 0.9204 | 0.5747 |
Swallow-MX-8x7b-NVE-v0.1 | 8x7B | 0.3740 | 0.7847 | 0.6520 | 0.3801 | 0.9170 | 0.5694 |
请注意,Swallow-MX-8x7b-NVE-v0.1并非基于Mixtral-8x7B-v0.1开发,而是在Mixtral-8x7B-Instruct-v0.1的基础上进行持续预训练。
训练数据集
持续预训练
以下数据集用于持续预训练:
风险与局限性
此处发布的模型仍处于研究和开发的早期阶段,尚未进行调优以确保输出符合人类意图和安全考量。
致谢
感谢Mistral AI以开放许可的方式发布Mixtral-8x7B-Instruct-v0.1,使其他开发者能够在此基础上进行开发。
本项目得到了日本国立先进工业科学技术研究所ABCI大规模语言模型构建支持计划的支持。
📄 许可证
本模型采用Apache 2.0许可证。
👥 作者
冈崎实验室(Okazaki Laboratory)
横田实验室(YOKOTA Laboratory)
📝 如何引用
如果您认为我们的工作有帮助,请随意引用:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文