🚀 Suzume ORPO
Suzume ORPO是基于lightblue/suzume-llama-3-8B-multilingual模型,使用lightblue/mitsu数据集,通过ORPO方法微调得到的模型。本项目训练了多个版本的模型,并推荐使用测试中表现最佳的lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half模型。
[论文] [数据集]
✨ 主要特性
📚 详细文档
模型列表
使用lightblue/mitsu数据集的不同比例数据,通过ORPO方法训练了以下模型:
模型结果
比较了4个ORPO训练模型以及一些基线模型在6种语言上的MT-Bench分数:
MT-Bench语言 |
meta-llama/Meta-Llama-3-8B-Instruct |
Nexusflow/Starling-LM-7B-beta |
gpt-3.5-turbo |
lightblue/suzume-llama-3-8B-multilingual |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75 |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half |
lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25 |
中文 🇨🇳 |
NaN |
6.97 |
7.55 |
7.11 |
7.65 |
7.77 |
7.74 |
7.44 |
英文 🇺🇸 |
7.98 |
7.92 |
8.26 |
7.73 |
7.98 |
7.94 |
7.98 |
8.22 |
法文 🇫🇷 |
NaN |
7.29 |
7.74 |
7.66 |
7.84 |
7.46 |
7.78 |
7.81 |
德文 🇩🇪 |
NaN |
6.99 |
7.68 |
7.26 |
7.28 |
7.64 |
7.7 |
7.71 |
日文 🇯🇵 |
NaN |
6.22 |
7.84 |
6.56 |
7.2 |
7.12 |
7.34 |
7.04 |
俄文 🇷🇺 |
NaN |
8.28 |
7.94 |
8.19 |
8.3 |
8.74 |
8.94 |
8.81 |
与基础模型相比,大多数语言都有明显的提升。同时,在多种语言上,ORPO模型在所有评估模型中取得了最高分。
训练数据
使用lightblue/mitsu_full_borda数据集训练该模型。
训练配置

查看axolotl配置
axolotl版本:0.4.0
base_model: lightblue/suzume-llama-3-8B-multilingual
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
rl: orpo
orpo_alpha: 0.1
remove_unused_columns: false
chat_template: chatml
datasets:
- path: lightblue/mitsu_tophalf_borda
type: orpo.chat_template
conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-multilingual-orpo/prepared_mitsu_half_borda
val_set_size: 0.02
output_dir: /workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_half_borda
sequence_len: 8192
sample_packing: false
pad_to_sequence_len: true
use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: mitsu_half_borda
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 8e-6
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 20
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_half_borda
该模型是lightblue/suzume-llama-3-8B-multilingual在None数据集上的微调版本。在评估集上取得了以下结果:
模型描述
更多信息待补充。
预期用途和限制
更多信息待补充。
训练和评估数据
更多信息待补充。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:8e-06
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:4
- 梯度累积步数:8
- 总训练批次大小:32
- 总评估批次大小:4
- 优化器:Adam(beta1=0.9,beta2=0.999,epsilon=1e-08)
- 学习率调度器类型:余弦
- 学习率调度器热身步数:10
- 训练轮数:1
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
7.6299 |
0.02 |
1 |
7.7014 |
7.041 |
0.07 |
3 |
3.9786 |
0.6089 |
0.15 |
6 |
0.1393 |
0.1308 |
0.22 |
9 |
0.1244 |
0.1051 |
0.29 |
12 |
0.1112 |
0.1021 |
0.36 |
15 |
0.1063 |
0.0861 |
0.44 |
18 |
0.1026 |
0.1031 |
0.51 |
21 |
0.0979 |
0.0996 |
0.58 |
24 |
0.0967 |
0.0923 |
0.65 |
27 |
0.0960 |
0.1025 |
0.73 |
30 |
0.0944 |
0.1103 |
0.8 |
33 |
0.0939 |
0.0919 |
0.87 |
36 |
0.0937 |
0.104 |
0.94 |
39 |
0.0935 |
框架版本
- Transformers 4.38.2
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.0
📄 许可证
本模型使用CC BY-NC 4.0许可证。请注意,由于使用了Command R和Command R+模型生成训练数据(lightblue/mitsu),该模型具有非商业许可证。目前正在开发商业可用的模型,请持续关注!
如何引用
@article{devine2024sure,
title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.18952},
year={2024}
}
开发者
Peter Devine - (ptrdvn)