语言:
- 英语
许可证: Apache-2.0
标签:
- 摘要生成
- Azure机器学习
- Azure
- CodeCarbon
- BART
数据集:
- SAMSum对话数据集
评估指标:
- ROUGE
模型索引:
- 名称: bart-large-samsum
结果:
- 任务:
名称: 抽象文本摘要
类型: 抽象文本摘要
数据集:
名称: "SAMSum语料库:用于抽象摘要的人工标注对话数据集"
类型: samsum
指标:
- 名称: 验证集ROUGE-1
类型: rouge-1
值: 55.0234
- 名称: 验证集ROUGE-2
类型: rouge-2
值: 29.6005
- 名称: 验证集ROUGE-L
类型: rouge-L
值: 44.914
- 名称: 验证集ROUGE-Lsum
类型: rouge-Lsum
值: 50.464
- 名称: 测试集ROUGE-1
类型: rouge-1
值: 53.4345
- 名称: 测试集ROUGE-2
类型: rouge-2
值: 28.7445
- 名称: 测试集ROUGE-L
类型: rouge-L
值: 44.1848
- 名称: 测试集ROUGE-Lsum
类型: rouge-Lsum
值: 49.1874
示例输入:
- 文本: |
亨利:嘿,内特今晚会过来看电影吗?
凯文:是的,他说他6点下班,大概7点到。你倒垃圾了吗?
亨利:哦我忘了,做完数学作业就去倒。
凯文:嗯最好尽快。对了内特要带女朋友来。
亨利:太好了,真期待再见到他们。
bart-large-samsum
模型
该模型使用微软Azure机器学习服务训练,基于facebook/bart-large预训练模型在SAMSum对话数据集上微调而成。
使用方式(推理)
from transformers import pipeline
summarizer = pipeline("summarization", model="linydub/bart-large-samsum")
input_text = '''
亨利:嘿,内特今晚会过来看电影吗?
凯文:是的,他说他6点下班,大概7点到。你倒垃圾了吗?
亨利:哦我忘了,做完数学作业就去倒。
凯文:嗯最好尽快。对了内特要带女朋友来。
亨利:太好了,真期待再见到他们。
'''
summarizer(input_text)
AzureML微调

更多关于微调过程的详细信息(含样本和基准测试):
[预览版] https://github.com/linydub/azureml-greenai-txtsum
资源使用情况
数据来自Azure Monitor指标,所有实验均在AzureML低优先级计算集群上运行。
关键项 |
数值 |
区域 |
美国西部2 |
AzureML计算规格 |
STANDARD_ND40RS_V2 |
计算规格GPU设备 |
8 x NVIDIA V100 32GB (NVLink) |
计算节点数 |
1 |
运行时长 |
6分48秒 |
计算成本(专用/低优先级) |
2.50美元/0.50美元 |
平均CPU利用率 |
47.9% |
平均GPU利用率 |
69.8% |
平均GPU内存使用量 |
25.71 GB |
GPU总能耗 |
370.84千焦 |
*成本($)根据运行时长、计算节点数和规格每小时价格估算,最新价格参见Azure定价页。
碳排放
使用CodeCarbon测算,仅含训练阶段(不含准备和评估阶段)。
关键项 |
数值 |
时间戳 |
2021-09-16T23:54:25 |
持续时间 |
263.24秒 |
碳排放量 |
0.0297千克 |
能耗 |
0.0998千瓦时 |
国家 |
美国 |
地区 |
华盛顿州 |
云服务商 |
Azure |
云区域 |
美国西部2 |
超参数配置
- 最大源文本长度: 512
- 最大目标文本长度: 90
- 混合精度训练: 开启
- 随机种子: 1
- 单设备训练批大小: 16
- 单设备评估批大小: 16
- 梯度累积步数: 1
- 学习率: 5e-5
- 训练轮次: 3.0
- 权重衰减: 0.1
性能结果
ROUGE指标 |
得分 |
验证集rouge1 |
55.0234 |
验证集rouge2 |
29.6005 |
验证集rougeL |
44.914 |
验证集rougeLsum |
50.464 |
测试集rouge1 |
53.4345 |
测试集rouge2 |
28.7445 |
测试集rougeL |
44.1848 |
测试集rougeLsum |
49.1874 |
评估指标 |
数值 |
训练轮次 |
3.0 |
验证集生成长度 |
30.6词 |
验证集损失值 |
1.4327 |
验证运行时间 |
22.91秒 |
验证样本数 |
818条 |
验证样本处理速度 |
35.7条/秒 |
验证步速 |
0.306步/秒 |
测试集生成长度 |
30.48词 |
测试集损失值 |
1.4502 |
测试运行时间 |
26.03秒 |
测试样本数 |
819条 |
测试样本处理速度 |
31.47条/秒 |
测试步速 |
0.269步/秒 |
训练损失值 |
1.2015 |
总训练时间 |
263.37秒 |
训练样本总数 |
14732条 |
训练样本处理速度 |
167.81条/秒 |
训练步速 |
1.321步/秒 |
总训练步数 |
348步 |
总浮点运算量 |
4.26×10¹⁶次 |