suzume-llama-3-8B开源多语言大模型 - 免费可用，多项语言任务表现出色！

首页

Suzume Llama 3 8B Multilingual Orpo Borda Half

由 lightblue 开发

基于Llama-3-8B通过ORPO方法微调的多语言大模型，使用50%最一致排名数据训练，在多项语言任务中表现优异。

大型语言模型

Transformers

#多语言优化 #ORPO微调 #指令精调

下载量 4,625

发布时间 : 4/25/2024

模型简介

这是一个通过ORPO（Odds Ratio Preference Optimization）方法微调的多语言大语言模型，基于Llama-3-8B架构，专门优化了多语言理解和生成能力。

模型特点

ORPO优化训练

使用Odds Ratio Preference Optimization方法微调，显著提升模型在多语言任务中的表现

多语言能力

在6种主要语言(中英法德日俄)上均有优异表现，部分语言超越GPT-3.5

数据精选

使用50%最一致排名数据训练，确保训练质量

长上下文支持

支持8192 tokens的长上下文处理

模型能力

多语言文本生成

多语言问答

多语言对话系统

多语言文本理解

使用案例

多语言应用

多语言客服机器人

构建支持多种语言的智能客服系统

在MT-Bench测试中，俄语表现最佳(8.94分)，中文7.74分

多语言内容创作

辅助生成多种语言的营销文案、文章等内容

在法语和德语测试中表现优于基础模型

研究应用

ORPO方法研究

研究不同比例训练数据对模型性能的影响

50%数据版本在多项测试中表现优异

🚀 Suzume ORPO

Suzume ORPO是基于lightblue/suzume-llama-3-8B-multilingual模型，使用lightblue/mitsu数据集，通过ORPO方法微调得到的模型。本项目训练了多个版本的模型，并推荐使用测试中表现最佳的lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half模型。

Suzume with Mitsu - a Japanese tree sparrow with honey on it

[论文] [数据集]

✨ 主要特性

基于ORPO方法对lightblue/suzume-llama-3-8B-multilingual模型进行微调，在多种语言上相比基础模型有显著提升。
训练了多个不同比例数据集的模型版本，可根据需求选择。

📚 详细文档

模型列表

使用lightblue/mitsu数据集的不同比例数据，通过ORPO方法训练了以下模型：

在数据集中所有提示的顶部/底部响应上训练：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full
在数据集中排名最一致的75%提示的顶部/底部响应上训练：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75
在数据集中排名最一致的50%提示的顶部/底部响应上训练：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half
在数据集中排名最一致的25%提示的顶部/底部响应上训练：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25

模型结果

比较了4个ORPO训练模型以及一些基线模型在6种语言上的MT-Bench分数：

MT-Bench语言	meta-llama/Meta-Llama-3-8B-Instruct	Nexusflow/Starling-LM-7B-beta	gpt-3.5-turbo	lightblue/suzume-llama-3-8B-multilingual	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half	lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25
中文 🇨🇳	NaN	6.97	7.55	7.11	7.65	7.77	7.74	7.44
英文 🇺🇸	7.98	7.92	8.26	7.73	7.98	7.94	7.98	8.22
法文 🇫🇷	NaN	7.29	7.74	7.66	7.84	7.46	7.78	7.81
德文 🇩🇪	NaN	6.99	7.68	7.26	7.28	7.64	7.7	7.71
日文 🇯🇵	NaN	6.22	7.84	6.56	7.2	7.12	7.34	7.04
俄文 🇷🇺	NaN	8.28	7.94	8.19	8.3	8.74	8.94	8.81

与基础模型相比，大多数语言都有明显的提升。同时，在多种语言上，ORPO模型在所有评估模型中取得了最高分。

训练数据

使用lightblue/mitsu_full_borda数据集训练该模型。

训练配置

查看axolotl配置

axolotl版本：0.4.0

base_model: lightblue/suzume-llama-3-8B-multilingual
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer  # PreTrainedTokenizerFast

load_in_8bit: false
load_in_4bit: false
strict: false

rl: orpo
orpo_alpha: 0.1
remove_unused_columns: false

chat_template: chatml
datasets:
  - path: lightblue/mitsu_tophalf_borda
    type: orpo.chat_template
    conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-multilingual-orpo/prepared_mitsu_half_borda
val_set_size: 0.02
output_dir: /workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_half_borda

sequence_len: 8192
sample_packing: false
pad_to_sequence_len: true

use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: mitsu_half_borda

gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 8e-6

train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true

warmup_steps: 10
evals_per_epoch: 20
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.0
special_tokens:
  pad_token: <|end_of_text|>

workspace/llm_training/axolotl/llama3-multilingual-orpo/output_mitsu_half_borda

该模型是lightblue/suzume-llama-3-8B-multilingual在None数据集上的微调版本。在评估集上取得了以下结果：

损失值：0.0935

模型描述

更多信息待补充。

预期用途和限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：8e-06
训练批次大小：1
评估批次大小：1
随机种子：42
分布式类型：多GPU
设备数量：4
梯度累积步数：8
总训练批次大小：32
总评估批次大小：4
优化器：Adam（beta1=0.9，beta2=0.999，epsilon=1e-08）
学习率调度器类型：余弦
学习率调度器热身步数：10
训练轮数：1

训练结果

训练损失	轮数	步数	验证损失
7.6299	0.02	1	7.7014
7.041	0.07	3	3.9786
0.6089	0.15	6	0.1393
0.1308	0.22	9	0.1244
0.1051	0.29	12	0.1112
0.1021	0.36	15	0.1063
0.0861	0.44	18	0.1026
0.1031	0.51	21	0.0979
0.0996	0.58	24	0.0967
0.0923	0.65	27	0.0960
0.1025	0.73	30	0.0944
0.1103	0.8	33	0.0939
0.0919	0.87	36	0.0937
0.104	0.94	39	0.0935

框架版本

Transformers 4.38.2
Pytorch 2.2.1+cu121
Datasets 2.18.0
Tokenizers 0.15.0

📄 许可证

本模型使用CC BY-NC 4.0许可证。请注意，由于使用了Command R和Command R+模型生成训练数据（lightblue/mitsu），该模型具有非商业许可证。目前正在开发商业可用的模型，请持续关注！

如何引用

@article{devine2024sure,
  title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.18952},
  year={2024}
}