库名称: transformers
语言:
- 英文
许可证:
- 知识共享署名-非商业性使用-相同方式共享4.0
示例输入:
- 文本: "某大型科技公司发布了首款全自动驾驶电动汽车,宣称单次充电续航达500英里,其先进安全功能将彻底改变交通运输行业。"
- 文本: "一项利用可再生能源驱动创新自主船舶的新全球倡议,目标在十年内清除50%的海洋漂浮塑料垃圾。"
- 文本: "两个长期敌对的国家签署了历史性和平协议,标志着外交关系的转折点,并为未来多年的经济社会合作奠定基础。"
模型卡片: T5-base-summarization-claim-extractor
模型描述
模型名称: T5-base-摘要声明提取器
作者: 亚历山德罗·希尔、卡里姆·戈尼姆、罗伯托·纳维利
联系方式: scire@diag.uniroma1.it, scire@babelscape.com
语言: 英语
主要用途: 从摘要中提取原子声明
概述
T5-base-摘要声明提取器是基于T5架构开发的模型,专门针对摘要中的原子声明提取任务进行微调。该模型是论文《基于自然语言推理和声明提取的摘要事实性评估(FENICE)》的研究成果,相关论文已发表于ACL 2024会议,预印本详见ArXiv。
预期用途
本模型设计用于:
- 从摘要文本中提取原子声明
- 作为摘要事实性评估流程的组件
示例代码
from transformers import T5ForConditionalGeneration, T5Tokenizer
tokenizer = T5Tokenizer.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
model = T5ForConditionalGeneration.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
summary = '西蒙·拜尔斯在2024巴黎奥运会女子体操资格赛中荣耀回归。她克服了东京奥运会期间导致退赛的"空中迷失"症状,在所有器械项目表现惊艳,助美国队以绝对优势领跑资格赛。其动作编排展现了非凡的韧性与技艺,赢得明星云集的观众席热烈欢呼'
tok_input = tokenizer.batch_encode_plus([summary], return_tensors="pt", padding=True)
claims = model.generate(**tok_input)
claims = tokenizer.batch_decode(claims, skip_special_tokens=True)
注意: 模型输出为合并的声明字符串,使用时请按句子分割以获取独立声明。
训练
训练过程详见论文第四章第一节(https://aclanthology.org/2024.findings-acl.841.pdf)。
性能表现
模型 |
易读性准确率 |
易读性召回率 |
易读性F1值 |
GPT-3.5 |
80.1 |
70.9 |
74.9 |
T5-base-摘要声明提取器 |
79.2 |
68.8 |
73.4 |
表1: 基于ROSE数据集(Liu等, 2023b)的声明提取器性能对比,评估指标包括易读性准确率、召回率和F1值。更多细节参见论文第四章第一节。
主代码库
FENICE项目详情请访问GitHub仓库:
Babelscape/FENICE
引用
若使用本模型,请引用:
@inproceedings{scire-etal-2024-fenice,
title = "{FENICE}: 基于自然语言推理和声明提取的摘要事实性评估",
author = "希尔, 亚历山德罗 and 戈尼姆, 卡里姆 and 纳维利, 罗伯托",
booktitle = "ACL 2024会议论文集",
year = "2024",
pages = "14148--14161",
}
局限性
- 专为摘要声明提取设计,其他文本类型效果可能不佳
- 目前仅支持英语,对其他语言泛化能力有限
伦理声明
需注意本模型仅提取可验证性声明,不判定声明真实性。评估摘要可靠性时应结合其他工具或人工判断。
致谢
本研究得到Babelscape公司和Sapienza NLP团队的支持。