基础模型:BART
数据集:dennlinger/eur-lex-sum
语言:英语
任务标签:摘要生成
标签:
模型索引:
- 名称:BART
结果:
- 任务:
类型:摘要生成
名称:长篇幅法律文档摘要
数据集:
名称:eur-lex-sum
类型:dennlinger/eur-lex-sum
指标:
- 类型:ROUGE-1
值:0.42498553772738057
- 类型:ROUGE-2
值:0.15839425914885624
- 类型:ROUGE-L
值:0.20413437189383524
- 类型:BERTScore
值:0.8658945946720059
- 类型:BARTScore
值:-3.6140887003040127
- 类型:BLANC
值:0.09585484599908967
LexLM_Longformer_BART_fixed_V1 模型卡片
模型详情
模型描述
该模型是基于BART微调的版本,研究采用多步骤摘要生成方法处理长篇幅法律文档。可再生能源领域的许多决策高度依赖法规,但这些法规通常冗长且复杂。所提出的架构首先使用一个或多个抽取式摘要步骤压缩源文本,最后通过抽象式摘要模型生成最终摘要。此微调的抽象式模型在通过LexLM_Longformer固定比例抽取式摘要预处理的数据集上训练。研究使用了多种抽取-抽象模型组合,详见https://huggingface.co/MikaSie。为获得最佳效果,请按设计方式将抽取式摘要作为输入提供给模型!
该模型使用的数据集为EUR-lex-sum,评估指标见本模型卡元数据。
本论文由乌得勒支大学的Mika Sie硕士论文与Power2x合作提出,更多信息见PAPER_LINK。
- 开发者:Mika Sie
- 资助方:乌得勒支大学 & Power2X
- 语言(NLP):英语
- 微调基础模型:BART
模型来源
- 代码库:https://github.com/MikaSie/Thesis
- 论文:PAPER_LINK
- Streamlit演示:STREAMLIT_LINK
用途
直接使用
该模型可直接用于长篇幅法律文档摘要生成,但建议先使用抽取式摘要工具(如LexLM_Longformer)压缩源文本再输入本模型。此模型专为处理抽取式摘要设计。
使用Huggingface管道的示例如下:
pip install bert-extractive-summarizer
from summarizer import Summarizer
from transformers import pipeline
extractive_model = Summarizer()
text = '待摘要的原始文档文本'
extractive_summary = Summarizer(text)
abstractive_model = pipeline('summarization', model = 'MikaSie/LexLM_Longformer_BART_fixed_V1', tokenizer = 'MikaSie/LexLM_Longformer_BART_fixed_V1')
result = pipeline(extractive_summary)
更多实现细节详见论文报告。
超出适用范围
未使用抽取式摘要步骤直接调用该模型可能无法获得最优结果。建议遵循模型描述中提出的多步骤摘要生成方法以获得最佳性能。
偏见、风险与限制
偏见
与任何语言模型类似,该模型可能继承训练数据中的偏见。需注意源文本中的潜在偏见并审慎评估生成摘要。
风险
- 模型可能无法始终生成准确或全面的摘要,尤其是针对复杂法律文档时
- 模型可能生成不真实的信息
限制
- 生成的摘要可能过度抽象或遗漏重要细节
- 模型性能可能因输入抽取式摘要的质量和相关性而异
建议
- 在关键任务中依赖生成摘要前,务必仔细审查和验证
- 考虑结合人工审核或其他验证机制以确保摘要的准确性和完整性
- 尝试不同抽取式摘要模型或技术以找到最适合抽象式模型的输入
- 提供反馈并参与模型的持续研发以帮助改进性能和解决限制
- 基于此内容的任何操作均需自行承担风险