缩略图: https://github.com/rinnakk/japanese-pretrained-models/blob/master/rinna.png
数据集:
- mc4
- 维基百科
- EleutherAI/pile
- oscar-corpus/colossal-oscar-1.0
- cc100
语言:
- 日语
- 英语
标签:
- qwen
推理: false
许可证: other
许可证名称: 通义千问许可协议
许可证链接: >-
https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT
基础模型: Qwen/Qwen-14B
rinna/nekomata-14b

概述
我们在混合日语和英语数据集的660亿token上对qwen-14b进行了持续预训练。持续预训练显著提升了模型在日语任务上的表现。它还继承了原始Qwen模型的以下优秀特性:
- 包容性强的Qwen词汇表(词汇量>15万)使模型处理日语文本的效率比之前发布的youri系列高得多。
- 模型支持最大8192的序列长度。
名称nekomata
源自日语词猫又/ねこまた/Nekomata
,这是一种日本神话生物(妖怪/ようかい/Youkai
)。
-
库
模型训练使用了基于aws-neuron/neuronx-nemo-megatron的代码。
-
模型架构
一个40层、5120隐藏大小的基于transformer的语言模型。架构详情请参阅Qwen论文。
-
持续预训练
模型以qwen-14b模型为初始,在约660亿token的混合语料上持续训练,语料包括:
-
训练基础设施
nekomata-14B
在16个Amazon EC2 trn1.32xlarge实例节点上训练,这些实例由AWS Trainium专用ML加速芯片驱动。预训练任务在大约7天内完成。
-
贡献者
-
发布日期
2023年12月21日
基准测试
请参阅rinna的LM基准测试页面(20231221表格)。
如何使用模型
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("rinna/nekomata-14b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("rinna/nekomata-14b", device_map="auto", trust_remote_code=True)
text = "西田幾多郎は、"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")
with torch.no_grad():
output_ids = model.generate(
token_ids.to(model.device),
max_new_tokens=200,
min_new_tokens=200,
do_sample=True,
temperature=1.0,
top_p=0.95,
pad_token_id=tokenizer.pad_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id
)
output = tokenizer.decode(output_ids.tolist()[0])
print(output)
分词
模型使用原始Qwen分词器。它扩展了cl100k
tiktoken分词器,词汇量达到151,936。包容性强的词汇表帮助模型达到更好的分词效率,尤其是对日语文本。
我们比较了nekomata
使用的Qwen
分词器和youri
使用的llama-2
分词器在不同文本集上的表现,发现Qwen分词器实现了更优的字节到token比率(即1字节文本产生的平均token数)如下。较低的字节到token比率表示更高的分词效率。
分词器 |
日语 |
英语 |
多语言 |
Qwen |
0.24 |
0.27 |
0.27 |
llama-2 |
0.40 |
0.29 |
0.36 |
如何引用
@misc{rinna-nekomata-14b,
title = {rinna/nekomata-14b},
author = {Zhao, Tianyu and Kaga, Akio and Sawada, Kei},
url = {https://huggingface.co/rinna/nekomata-14b}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
许可证
通义千问许可协议