缩略图: https://github.com/rinnakk/japanese-pretrained-models/blob/master/rinna.png
许可证: llama3
数据集:
- mc4
- 维基百科
- EleutherAI/pile
- oscar-corpus/colossal-oscar-1.0
- cc100
语言:
- 日语
- 英语
标签:
- llama
- llama-3
推理: false
基础模型: meta-llama/Meta-Llama-3-8B
妖狐Llama 3 8B模型 (rinna/llama-3-youko-8b)

概述
我们在混合日语和英语数据集上对meta-llama/Meta-Llama-3-8B进行了220亿token的持续预训练。这种持续预训练显著提升了模型在日语任务上的表现。
模型名称youko
源自日语词妖狐/ようこ/Youko
,指代日本神话中的一种妖怪(妖怪/ようかい/Youkai
)。
性能基准
详见rinna语言模型基准页面(20240507版)。
使用指南
import transformers
import torch
model_id = "rinna/llama-3-youko-8b"
pipeline = transformers.pipeline(
"文本生成",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto"
)
output = pipeline(
"西田几多郎是",
max_new_tokens=256,
do_sample=True
)
print(output[0]["generated_text"])
分词处理
本模型使用原始meta-llama/Meta-Llama-3-8B分词器。
引用方式
@misc{rinna-llama-3-youko-8b,
title = {rinna/llama-3-youko-8b},
author = {光田耕 and 陈心琪 and 胁月俊明 and 泽田圭},
url = {https://huggingface.co/rinna/llama-3-youko-8b}
}
@inproceedings{sawada2024release,
title = {日语预训练模型发布},
author = {泽田圭 and 赵天宇 and 新诚 and 光田耕 and 胁月俊明},
booktitle = {2024年计算语言学与语言资源国际联合会议论文集},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
参考文献
@article{llama3modelcard,
title = {Llama 3模型卡},
author = {Meta AI团队},
year = {2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
@software{gpt-neox-library,
title = {{GPT-NeoX}: 基于PyTorch的大规模自回归语言建模},
author = {Andonian, Alex et al.},
doi = {10.5281/zenodo.5879544},
month = {8},
year = {2021},
version = {0.0.1},
url = {https://www.github.com/eleutherai/gpt-neox}
}
许可协议
Meta Llama 3社区许可证