许可证:cc-by-nc-4.0
标签:
- 训练生成
基础模型:lightblue/suzume-llama-3-8B-multilingual
模型索引:
- 名称:workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_top75_borda
结果:[]
铃木ORPO模型
[论文] [数据集]
这是铃木ORPO模型,基于lightblue/suzume-llama-3-8B-multilingual通过ORPO方法微调训练而成,训练数据来自我们的lightblue/mitsu数据集。
我们使用ORPO训练了该模型的多个版本,建议您选用测试中表现最佳的lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half。
请注意,由于使用了Command R和Command R+模型生成训练数据(lightblue/mitsu),本模型采用非商业许可协议。我们正在开发可商用的模型版本,敬请期待!
模型列表
我们使用lightblue/mitsu数据集的不同比例训练了以下ORPO模型:
模型表现
我们在6种语言上对比了4个ORPO模型与基线模型的MT-Bench分数:
MT-Bench语言 |
Llama-3-8B-Instruct |
Starling-LM-7B |
GPT-3.5-turbo |
铃木基座模型 |
全量ORPO |
75%ORPO |
50%ORPO |
25%ORPO |
中文 🇨🇳 |
NaN |
6.97 |
7.55 |
7.11 |
7.65 |
7.77 |
7.74 |
7.44 |
英语 🇺🇸 |
7.98 |
7.92 |
8.26 |
7.73 |
7.98 |
7.94 |
7.98 |
8.22 |
法语 🇫🇷 |
NaN |
7.29 |
7.74 |
7.66 |
7.84 |
7.46 |
7.78 |
7.81 |
德语 🇩🇪 |
NaN |
6.99 |
7.68 |
7.26 |
7.28 |
7.64 |
7.7 |
7.71 |
日语 🇯🇵 |
NaN |
6.22 |
7.84 |
6.56 |
7.2 |
7.12 |
7.34 |
7.04 |
俄语 🇷🇺 |
NaN |
8.28 |
7.94 |
8.19 |
8.3 |
8.74 |
8.94 |
8.81 |
相比基座模型,多数语言均有显著提升。我们的ORPO模型在多个语种上取得了评测最高分。
训练数据
使用lightblue/mitsu_full_borda数据集训练。
训练配置

查看axolotl配置
axolotl版本:0.4.0
(配置详情同原文,此处省略翻译)
workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_top75_borda
本模型是在None数据集上对lightblue/suzume-llama-3-8B-multilingual的微调版本,评估集表现如下:
模型描述
(需补充信息)
使用范围与限制
(需补充信息)
训练与评估数据
(需补充信息)
训练过程
超参数设置
- 学习率:8e-06
- 训练批大小:1
- 评估批大小:1
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:4
- 梯度累积步数:8
- 总训练批大小:32
- 总评估批大小:4
- 优化器:Adam(betas=(0.9,0.999), epsilon=1e-08)
- 学习率调度器:余弦退火
- 预热步数:10
- 训练轮次:1
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
7.6309 |
0.02 |
1 |
7.7104 |
... |
... |
... |
... |
(完整表格同原文) |
|
|
|
框架版本
- Transformers 4.38.2
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.0
引用方式
@article{devine2024sure,
title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.18952},
year={2024}
}
开发者
Peter Devine - (ptrdvn)