许可协议: mit
数据集:
- EdinburghNLP/xsum
语言:
- en
评估指标:
- rouge
基础模型:
- facebook/bart-large
新版本: facebook/bart-large
任务标签: summarization
库名称: transformers
标签:
- fine-tuning
- bart-large
- xsum
模型描述
模型 - fulltrain-xsum-bart
- 架构 - BART(双向自回归变换器)
- 任务 - 抽象摘要生成
- 数据集 - XSum(极限摘要)
- 训练硬件 - 2块NVIDIA T4 GPU(使用Kaggle平台)
- 训练时间 - 约9小时
该模型基于XSum数据集微调,用于抽象摘要生成任务。它以长文档作为输入,生成简洁的摘要。
数据集详情
- 训练集 - 204,045条样本
- 验证集 - 11,332条样本
- 测试集 - 11,334条样本
XSum数据集包含BBC文章及其对应的单句摘要。模型训练目标是生成简洁且能捕捉原文核心的摘要。
训练详情
训练参数 |
值 |
训练轮次 |
1 |
批次大小(单设备) |
8 |
学习率 |
5e-5 |
权重衰减 |
0.01 |
预热步数 |
500 |
FP16训练 |
启用 |
评估策略 |
每轮次 |
最佳模型选择依据 |
验证损失(eval_loss) |
评估指标
模型使用以下指标评估:
指标 |
得分 |
训练损失 |
0.3771 |
验证损失 |
0.350379 |
Rouge-1 |
0.401344019 |
Rouge-2 |
0.188076798 |
Rouge-L |
0.33460693 |
这些指标通过rouge_scorer
库计算得出。
训练参数配置
模型使用以下Hugging Face Seq2SeqTrainingArguments参数训练:
参数 |
值 |
保存策略 |
每轮次 |
日志记录步数 |
1000 |
数据加载器工作线程数 |
4 |
生成式预测 |
启用 |
结束时加载最佳模型 |
启用 |
最佳模型指标 |
eval_loss |
指标优化方向 |
越小越好(验证损失越低越好) |
报告平台 |
Weights & Biases (WandB) |
其他注意事项
- 模型基于BBC文章组成的XSum数据集微调,在其他领域或文本类型上表现可能不同。模型可能继承XSum数据集中BBC文章存在的偏见。
- 模型根据训练学习的模式生成摘要,可能偶尔产生不准确或误导性摘要,尤其对于复杂或模糊的输入文本。
- 模型可能难以处理高度技术性或领域特定的内容,因其未针对此类数据专门训练。
- 模型仅生成英文摘要。
使用示例
以下是加载和使用模型的示例代码:
from transformers import pipeline
summarizer = pipeline("summarization", model="bhargavis/fulltrain-xsum-bart")
input_text = """
当局在森林中发现多起大型棕熊目击事件后发布警告。该熊在受干扰时可能具有攻击性,敦促居民保持警惕。上周有徒步者报告与该动物近距离遭遇。虽未造成伤害,但当被接近时熊表现出防御行为。野生动物官员建议保持安全距离并尽量避免该区域。遇到熊时应保持冷静,缓慢后退,避免突然动作。官员将持续监控情况。
"""
summary = summarizer(input_text, max_length=64, min_length=30, do_sample=False)
print(summary[0]["summary_text"])