许可协议:其他
许可证名称:llama-3
许可证链接:https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/raw/main/LICENSE
基础模型:meta-llama/Meta-Llama-3-8B-Instruct
标签:
- 训练生成
模型索引:
- 名称:workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct
结果:[]
Suzume
[论文] [数据集]
这是Suzume 8B,基于Llama 3的日语微调模型。
Llama 3在许多英语基准测试中表现出色。然而,它似乎主要在英语数据上进行了微调,这意味着即使用日语提示,它也会用英语回应。
我们在超过3,000个日语对话上对Llama 3进行了微调,使该模型具备Llama 3的智能,同时增加了用日语交流的能力。
欢迎在社区标签页中评论此模型并给予我们反馈!
我们将在未来发布一篇论文,描述我们如何制作训练数据、模型以及进行的评估。
使用方法
您可以使用vLLM加载原始训练模型,如下所示:
from vllm import LLM, SamplingParams
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="lightblue/suzume-llama-3-8B-japanese")
prompts = [
"请推荐东京的观光景点",
]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"提示:{prompt!r}, 生成文本:{generated_text!r}")
评估分数
我们发现,在多种日语基准测试中,这是7/8B类别中表现最佳的LLM模型。
我们使用lightblue-tech/japanese_llm_eval仓库计算日语评估分数。

我们还使用multilingual_mt_bench仓库将我们的日语模型与多语言模型进行比较。
|
lightblue/suzume-llama-3-8B-japanese |
lightblue/suzume-llama-3-8B-multilingual |
Nexusflow/Starling-LM-7B-beta |
gpt-3.5-turbo |
日语 🇯🇵 |
6.24 |
6.56 |
6.22 |
7.84 |
在这里,我们发现我们的多语言模型在日语MT-Bench基准测试中表现优于日语模型,这表明我们的多语言模型能够通过训练更多数据更好地泛化到日语MT-Bench基准测试,即使这些额外数据不是日语。
注意 - lightblue/suzume-llama-3-8B-japanese
在第一次和第二次评估中的MT-Bench分数差异是由于两个评估工具的系统消息不同。前者的系统消息是日语,而后者的系统消息是英语。
训练数据
我们使用三个数据源来训练此模型:
训练配置

查看axolotl配置
axolotl版本:0.4.0
基础模型:meta-llama/Meta-Llama-3-8B-Instruct
模型类型:LlamaForCausalLM
分词器类型:AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
数据集:
- 路径:/workspace/llm_training/axolotl/llama3-ja/openchat_megagon_lbgpt4_ja.json
ds_type: json
type: sharegpt
conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-ja/prepared_openchat_megagon_lbgpt4_ja
val_set_size: 0.01
output_dir: /workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: False
use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: openchat_megagon_lbgpt4_ja_8B_instruct
gradient_accumulation_steps: 2
micro_batch_size: 2
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 5
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero2.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
训练过程
训练超参数
训练期间使用的超参数如下:
- 学习率:1e-05
- 训练批次大小:2
- 评估批次大小:2
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:3
- 梯度累积步数:2
- 总训练批次大小:12
- 总评估批次大小:6
- 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:cosine
- 学习率调度器预热步数:10
- 训练轮数:1
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
1.303 |
0.08 |
1 |
1.2664 |
1.4231 |
0.23 |
3 |
1.2409 |
1.1007 |
0.46 |
6 |
1.0264 |
1.0635 |
0.69 |
9 |
1.0154 |
1.0221 |
0.92 |
12 |
0.9555 |
框架版本
- Transformers 4.40.0.dev0
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.0
如何引用
引用此模型时,请引用此论文。
@article{devine2024tagengo,
title={Tagengo: 一个多语言聊天数据集},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.12612},
year={2024}
}
开发者
Peter Devine - (ptrdvn)