license: mit
datasets:
- EdinburghNLP/xsum
metrics:
- bleu
- rouge
base_model:
- facebook/bart-large
pipeline_tag: summarization
模型描述
- 模型名称:fewshot-xsum-bart
- 基础模型:facebook/bart-large
- 任务:摘要生成(小样本学习)
数据集:XSUM(极端摘要数据集)
- 小样本设置:使用XSUM训练集中的100个样本进行训练,并在XSUM验证集的50个样本上进行验证。
- 该模型是BART-large模型的小样本学习变体,在XSUM数据集的极小子集上进行了微调。
- 此模型的目的是展示在仅有少量标注数据可用时,小样本学习在摘要生成任务中的有效性。
目标
该模型旨在探索像BART这样的大型预训练语言模型在仅用极少数据(小样本学习)微调后,生成摘要的能力。通过仅使用100个样本进行训练和50个样本进行验证,该模型作为小样本摘要任务的概念验证。
- 训练集:100个样本(从XSUM训练集中随机选取)。
- 验证集:50个样本(从XSUM验证集中随机选取)。
数据集规模较小是刻意为之,因为重点是研究小样本学习而非大规模训练。
- 基础模型:facebook/bart-large(在大规模语料上预训练)。
- 微调参数:
- 训练轮次:3
- 批次大小:8
- 学习率:5e-5
- 最大输入长度:512个标记
- 最大输出长度:64个标记
全样本学习模型
如需更通用的摘要生成模型,请查看在整个XSUM数据集上训练的完整模型:fulltrain-xsum-bart。
性能
由于该模型采用小样本学习,其性能无法与在完整XSUM数据集上训练的模型直接比较。但它展示了小样本学习在摘要任务中的潜力。验证集(50个样本)上的关键指标包括:
小样本学习模型
- ROUGE分数:
- ROUGE-1:0.34979462836539676
- ROUGE-2:0.1307846421186083
- ROUGE-L:0.27450996607520567
- BLEU分数:6.176957339134279
零样本/基线模型
- ROUGE分数:
- ROUGE-1:0.15600324782737301
- ROUGE-2:0.017444778781163447
- ROUGE-L:0.12044578560849475
- BLEU分数:0.6167333943579659
使用方法
此模型适用于小样本抽象摘要生成任务。以下是加载和使用模型的示例:
from transformers import pipeline
summarizer = pipeline("summarization", model="bhargavis/fewshot-xsum-bart")
input_text = """
当局在多次发现树林中出现一只大型棕熊后发布了警告。据悉,这只熊在受到惊扰时会变得具有攻击性,居民需谨慎行事。上周,一群徒步者报告称与该动物近距离遭遇。虽然无人受伤,但熊在被接近时表现出防御行为。野生动物官员建议保持安全距离,并尽可能避开该区域。遇到熊时应保持冷静,缓慢后退,避免突然动作。官员们正在持续监测情况。
"""
summary = summarizer(input_text, max_length=64, min_length=30, do_sample=False)
print(summary[0]["summary_text"])
局限性
- 该模型在极小的数据集上训练,因此其性能可能无法泛化到所有类型的文本。
- 构建此模型的目的是与零样本和全样本学习模型的性能进行比较。
- 最适合标注数据有限的任务。
- 模型在XSUM数据集的BBC文章上微调,在其他领域的文本上性能可能有所不同。
- 由于数据集规模小,模型可能对训练数据过拟合。
引用
如果在研究中使用此模型,请按以下方式引用:
@misc{fewshot-xsum-bart,
author = {Bhargavi Sriram},
title = {Few-Shot Abstractive Summarization with BART-Large},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/bhargavis/fewshot-xsum-bart}},
}