库名称: transformers
许可证: apache-2.0
基础模型: google/mt5-small
标签:
- 摘要生成
- 训练生成
评估指标:
- rouge
模型索引:
- 名称: mt5-small
结果: []
数据集:
- srvmishra832/multilingual-amazon-reviews-6-languages
语言:
- 英语
- 德语
基于google_mT5_small的多语言亚马逊评论摘要模型
本模型是在多语言亚马逊评论数据集上对google/mt5-small进行微调的版本。
在评估集上取得以下结果:
- 损失值: 2.9368
- 模型准备时间: 0.0038秒
- Rouge1: 16.1955
- Rouge2: 8.1292
- Rougel: 15.9218
- Rougelsum: 15.9516
模型描述
google/mt5-small
用途与限制
多语言产品评论摘要生成。支持语言: 英语和德语
训练与评估数据
HuggingFace上原始的多语言亚马逊产品评论数据集已失效。
因此我们使用Kaggle上的版本。
原始数据集支持6种语言: 英语、德语、法语、西班牙语、日语和查莫罗语。
每种语言包含20,000个训练样本、5,000个验证样本和5,000个测试样本。
我们将该数据集上传至HuggingFace平台srvmishra832/multilingual-amazon-reviews-6-languages
在此项目中,我们仅选择"电脑"和"电子产品"类别的英语和德语评论。
使用评论标题作为摘要,为防止模型生成过短的摘要,我们过滤了标题极短的样本。
最后对数据集进行降采样,以确保在Google Colab T4 GPU上能在合理时间内完成训练。
最终降采样并合并的数据集包含8,000个训练样本、452个验证样本和422个测试样本。
训练过程
训练超参数
训练使用的超参数如下:
- 学习率: 5.6e-05
- 训练批次大小: 16
- 评估批次大小: 16
- 随机种子: 42
- 优化器: 使用OptimizerNames.ADAMW_TORCH,参数为betas=(0.9,0.999),epsilon=1e-08,无额外参数
- 学习率调度类型: 线性
- 训练轮次: 10
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
模型准备时间 |
Rouge1 |
Rouge2 |
Rougel |
Rougelsum |
9.0889 |
1.0 |
500 |
3.4117 |
0.0038 |
12.541 |
5.1023 |
11.9039 |
11.8749 |
4.3977 |
2.0 |
1000 |
3.1900 |
0.0038 |
15.342 |
6.747 |
14.9223 |
14.8598 |
3.9595 |
3.0 |
1500 |
3.0817 |
0.0038 |
15.3976 |
6.2063 |
15.0635 |
15.069 |
3.7525 |
4.0 |
2000 |
3.0560 |
0.0038 |
15.7991 |
6.8536 |
15.4657 |
15.5263 |
3.6191 |
5.0 |
2500 |
3.0048 |
0.0038 |
16.3791 |
7.3671 |
16.0817 |
16.059 |
3.5155 |
6.0 |
3000 |
2.9779 |
0.0038 |
16.2311 |
7.5629 |
15.7492 |
15.758 |
3.4497 |
7.0 |
3500 |
2.9663 |
0.0038 |
16.2554 |
8.1464 |
15.9499 |
15.9152 |
3.3889 |
8.0 |
4000 |
2.9438 |
0.0038 |
16.5764 |
8.3698 |
16.3225 |
16.2848 |
3.3656 |
9.0 |
4500 |
2.9365 |
0.0038 |
16.1416 |
8.0266 |
15.8921 |
15.8913 |
3.3562 |
10.0 |
5000 |
2.9368 |
0.0038 |
16.1955 |
8.1292 |
15.9218 |
15.9516 |
框架版本
- Transformers 4.50.0
- Pytorch 2.6.0+cu124
- Datasets 3.4.1
- Tokenizers 0.21.1