llama-3-youko-8b-instruct开源模型 - 支持日英双语指令，免费实现智能交互

首页

Llama 3 Youko 8b Instruct

由 rinna 开发

基于Llama-3的日语和英语指令调优模型，融合SFT、聊天向量和DPO技术

大型语言模型

Transformers

支持多种语言#日语指令优化 #多技术融合调优 #日英双语支持

下载量 852

发布时间 : 7/21/2024

模型简介

该模型是rinna/llama-3-youko-8b的指令调优版本，采用监督微调(SFT)、聊天向量和直接偏好优化(DPO)技术，能更精准地响应指令，支持日语和英语。

模型特点

多技术融合调优

结合监督微调(SFT)、聊天向量和直接偏好优化(DPO)技术，提升指令跟随能力

多语言支持

支持日语和英语，适用于不同语言场景

多数据集训练

使用多个公开数据集和rinna自有数据集训练，提升模型泛化能力

Llama-3聊天格式

采用Llama-3聊天格式，能更精准地响应指令

模型能力

日语文本生成

英语文本生成

指令跟随

对话系统

使用案例

智能助手

日语问答系统

用于构建日语智能问答助手

能准确回答关于日本文化、历史等问题

多语言应用

多语言聊天机器人

构建支持日语和英语的聊天机器人

🚀 `Llama 3 Youko 8B Instruct (rinna/llama-3-youko-8b-instruct)`

该模型是基于监督微调（SFT）、聊天向量和直接偏好优化（DPO）技术，对 rinna/llama-3-youko-8b 进行指令调优后的版本，采用了 Llama-3 聊天格式，能更精准地响应指令。

✨ 主要特性

多技术融合调优：结合监督微调（SFT）、聊天向量和直接偏好优化（DPO）技术，提升模型指令跟随能力。
多语言支持：支持日语和英语，适用于不同语言场景。
多数据集训练：使用多个公开数据集和 rinna 自有数据集进行训练，提升模型泛化能力。

📚 详细文档

模型概述

该模型是 rinna/llama-3-youko-8b 的指令调优版本，采用了监督微调（SFT）、聊天向量和直接偏好优化（DPO）技术，并采用 Llama-3 聊天格式。

规模	持续预训练模型	指令调优模型
8B	Llama 3 Youko 8B [HF] [GPTQ]	Llama 3 Youko 8B Instruct [HF] [GPTQ]
70B	Llama 3 Youko 70B [HF] [GPTQ]	Llama 3 Youko 70B Instruct [HF] [GPTQ]

模型架构

这是一个基于 Transformer 的语言模型，具有 32 层和 4096 的隐藏层大小。具体架构细节请参考 Llama 3 Model Card。

训练过程

监督微调

监督微调数据来自以下数据集的子集：

CohereForAI/aya_dataset：使用了日语子集。
FLAN
kunishou/databricks-dolly-15k-ja
kunishou/hh-rlhf-49k-ja
kunishou/oasst1-chat-44k-ja
kunishou/oasst2-chat-68k-ja
meta-math/MetaMathQA：使用了 MATH_AnsAug、MATH_Rephrased、MATH_SV 和 MATH_FOBAR 部分，为防止数据泄露，跳过了包含常用评估语料库增强数据的部分。
OpenAssistant/oasst1：使用了英语和日语子集。
OpenAssistant/oasst2：使用了英语和日语子集。
sahil2801/CodeAlpaca-20k
rinna 数据集

模型融合

微调后的模型（llama-3-youko-8b-sft）通过添加聊天向量进行了增强。聊天向量是通过从 meta-llama/Meta-Llama-3-8B-Instruct 的参数向量中减去 meta-llama/Meta-Llama-3-8B 的参数向量得到的。

llama-3-youko-8b-sft + 0.5 * (meta-llama/Meta-Llama-3-8B-Instruct - meta-llama/Meta-Llama-3-8B)

在减去和添加参数向量时，跳过了嵌入层。

直接偏好优化

然后使用以下数据集的子集进行直接偏好优化，以构建这个指令模型：

贡献者

发布日期

2024 年 7 月 25 日

🔍 基准测试

请参考 rinna 的语言模型基准测试页面（Sheet 20240725）。

💻 使用示例

基础用法

我们发现这个指令调优模型比其基础模型更容易生成重复文本，因此我们将 repetition_penalty 设置为 1.1 以获得更好的生成性能。在上述评估实验中，同样的重复惩罚也应用于指令调优模型。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "rinna/llama-3-youko-8b-instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "あなたは誠実で優秀なアシスタントです。どうか、簡潔かつ正直に答えてください。"},
    {"role": "user", "content": "西田幾多郎とはどんな人物ですか？"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.convert_tokens_to_ids("<|end_of_text|>"),
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
    repetition_penalty=1.1,
)
    
response = outputs[0][input_ids.shape[-1]:]
response = tokenizer.decode(response, skip_special_tokens=True)
print(response)

🔧 技术细节

分词

该模型使用原始的 meta-llama/Meta-Llama-3-8B-Instruct 分词器。

📄 引用信息

@misc{rinna-llama-3-youko-8b-instruct,
    title = {rinna/llama-3-youko-8b-instruct},
    author = {Chen, Xinqi and Mitsuda, Koh and Wakatsuki, Toshiaki and Sawada, Kei},
    url = {https://huggingface.co/rinna/llama-3-youko-8b-instruct}
}

@inproceedings{sawada2024release,
    title = {Release of Pre-Trained Models for the {J}apanese Language},
    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
    month = {5},
    year = {2024},
    pages = {13898--13905},
    url = {https://aclanthology.org/2024.lrec-main.1213},
    note = {\url{https://arxiv.org/abs/2404.01657}}
}

📚 参考文献

@article{llama3modelcard,
    title = {Llama 3 Model Card},
    author = {AI@Meta},
    year = {2024},
    url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}

@article{huang2023chat,
    title = {Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages},
    author = {Huang, Shih-Cheng and Li, Pin-Zu and Hsu, Yu-Chi and Chen, Kuang-Ming and Lin, Yu Tung and Hsiao, Shih-Kai and Tzong-Han Tsai, Richard and Lee, Hung-yi},
    year = {2023},
    url = {https://arxiv.org/abs/2310.04799}
}