许可证:llama3
基础模型:meta-llama/Meta-Llama-3-8B-Instruct
标签:
- generated_from_trainer
模型索引:
- 名称:outputs/lr-8e6
结果:[]
数据集:
- augmxnt/ultra-orca-boros-en-ja-v1
根据Llama 3社区许可协议,此模型的官方名称为“LLama 3 shisa-v1-llama3-8b”
8e6版本因其性能略优而被采用,近期将进行清理和重命名工作...
为降低方差,我进行了两次测试运行。所有测试均使用温度0.2、最小概率0.1和频率惩罚0.5的参数设置:
模型 |
平均分 |
ELYZA100 |
日语MT-Bench |
Rakuda |
Tengu-Bench |
日语字符占比 |
shisa-v1-llama3-8b.lr-2e4 |
3.97 |
4.60 |
4.54 |
3.33 |
3.42 |
92.42% |
shisa-v1-llama3-8b.lr-5e5 |
5.73 |
6.28 |
6.45 |
5.37 |
4.81 |
90.93% |
shisa-v1-llama3-8b.2e5 |
6.33 |
6.51 |
6.66 |
6.68 |
5.48 |
91.51% |
shisa-v1-llama3-8b (8-e6) |
6.59 |
6.67 |
6.95 |
7.05 |
5.68 |
91.30% |
shisa-v1-llama3-8b.5e6 |
6.42 |
6.33 |
6.76 |
7.15 |
5.45 |
91.56% |
shisa-v1-llama3-8b.2e6 |
6.31 |
6.26 |
6.88 |
6.73 |
5.38 |
92.00% |
- 2e-4和5e-5版本明显过拟合,表现显著较差
- 2e-5版本处于临界状态,权重监测显示其嵌入层略有过拟合,但NEFTune版本未出现此现象
- 8e-6版本表现最佳,5e-6版本也略优于2e-5
与其他模型的对比情况:
模型 |
平均分 |
ELYZA任务100 |
MT-Bench |
Rakuda |
Tengu-Bench |
gpt-4-turbo-2024-04-09 |
8.75 |
8.78 |
8.74 |
9.18 |
8.31 |
gpt-4o-2024-05-13 |
8.72 |
8.88 |
8.69 |
9.15 |
8.16 |
gemini-1.5-pro |
8.58 |
8.58 |
8.93 |
9.20 |
7.61 |
claude-3-opus-20240229 |
8.55 |
8.64 |
8.58 |
8.75 |
8.23 |
CohereForAI/c4ai-command-r-plus |
7.69 |
7.50 |
7.43 |
9.05 |
6.79 |
shisa-ai/shisa-v1-llama3-70b |
7.30 |
7.34 |
7.67 |
8.15 |
6.04 |
gpt-3.5-turbo-0125 |
7.17 |
7.24 |
6.98 |
7.64 |
6.82 |
shisa-ai/shisa-v1-llama3-70b.2e5 |
7.17 |
7.16 |
7.45 |
7.98 |
6.09 |
karakuri-ai/karakuri-lm-8x7b-chat-v0.1 |
7.00 |
7.18 |
6.30 |
7.98 |
6.55 |
karakuri-ai/karakuri-lm-70b-chat-v0.1 |
6.84 |
6.86 |
6.43 |
7.85 |
6.23 |
lightblue/ao-karasu-72B |
6.81 |
7.19 |
6.54 |
7.25 |
6.27 |
shisa-ai/shisa-v1-llama3-8b |
6.59 |
6.67 |
6.95 |
7.05 |
5.68 |
shisa-ai/shisa-swallowmx-13a47b-v1 |
6.17 |
6.48 |
6.07 |
7.11 |
5.03 |
lightblue/suzume-llama-3-8B-japanese |
5.96 |
6.68 |
4.96 |
6.68 |
5.53 |
augmxnt/shisa-gamma-7b-v1 |
5.82 |
5.96 |
5.02 |
6.85 |
5.47 |
shisa-ai/shisa-v1-phi3-14b |
5.77 |
6.28 |
5.26 |
6.55 |
5.01 |
shisa-ai/shisa-v1-gemma-8b |
5.64 |
6.50 |
5.42 |
5.10 |
5.55 |
Rakuten/RakutenAI-7B-chat |
5.58 |
5.92 |
4.60 |
6.58 |
5.24 |
lightblue/qarasu-14B-chat-plus-unleashed |
5.20 |
5.58 |
4.74 |
5.46 |
5.01 |
shisa-ai/shisa-v1-mistral0.3-7b |
5.11 |
5.64 |
6.10 |
3.83 |
4.86 |
cyberagent/calm2-7b-chat |
4.76 |
4.90 |
3.58 |
5.75 |
4.81 |
mistralai/Mistral-7B-Instruct-v0.2 |
4.69 |
5.78 |
4.65 |
3.80 |
4.53 |
shisa-ai/shisa-v1-yi1.5-9b |
4.63 |
5.98 |
4.28 |
3.26 |
5.00 |
augmxnt/shisa-7b-v1 |
4.50 |
4.63 |
3.95 |
4.89 |
4.53 |
本模型的训练计算资源由Ubitus慷慨提供。

查看axolotl配置
axolotl版本:0.4.0
基础配置略...
outputs/lr-8e6
本模型是基于meta-llama/Meta-Llama-3-8B-Instruct在指定数据集上微调的版本,在评估集上取得以下结果:
模型描述
需补充更多信息
使用场景与限制
需补充更多信息
训练与评估数据
需补充更多信息
训练流程
训练超参数
训练过程中使用的关键超参数:
- 学习率:8e-06
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:8
- 梯度累积步数:8
- 总训练批次大小:64
- 总评估批次大小:8
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 学习率预热步数:100
- 训练轮次:3
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
1.3951 |
0.0064 |
1 |
0.8645 |
0.8731 |
0.5020 |
79 |
0.5577 |
0.8405 |
1.0040 |
158 |
0.5138 |
0.6888 |
1.4853 |
237 |
0.4982 |
0.6674 |
1.9873 |
316 |
0.4870 |
0.5859 |
2.4694 |
395 |
0.4983 |
框架版本
- Transformers 4.40.2
- Pytorch 2.3.0+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1