许可协议: cc-by-nc-4.0
语言: 英文
标签:
- 文本摘要
数据集:
- yuningm/citesum
示例输入:
- 文本: "摘要-本文提出一种控制策略,使移动机器人群体能通过优化环境感官信息测量来自主定位。机器人利用感知信息估算环境不同区域相对重要性的函数,随后通过计算简单的分散控制律驱动网络达到理想布局。我们构建问题模型,提供实用控制方案,并展示数值模拟结果,最后讨论在移动机器人集群上的实验成果。"
示例标题: "网络化机器人"
- 文本: "摘要。本文提出基于马尔可夫随机场(MRF)建模的贝叶斯人脸识别方法。通过探索图像特征约束及其上下文关系,将其编码为基于MRF统计模型推导的代价函数。采用Gabor小波系数作为基础特征,利用不同像素位置Gabor特征间的关系提供高阶上下文约束。基于MRF建模推导匹配构型的后验概率,结合局部搜索与判别分析评估局部匹配,并施加上下文约束评估局部匹配间的互匹配关系。所提出的MRF方法为人脸识别问题建模提供了新视角,实验结果表明了该方法的有效性。"
示例标题: "贝叶斯人脸识别"
- 文本: "摘要 数字图像取证的核心应用之一是准确识别拍摄图像的设备(即源识别问题)。本文研究该领域最新进展,提出融合传感器缺陷与小波变换两种技术来提升移动设备生成图像的源识别准确率。实验表明,传感器缺陷与小波变换联合特征能有效追溯手机图像来源设备,且本模型可高精度识别设备品牌与型号。"
示例标题: "移动设备的图像源识别"
Bart-Large CiteSum(标题版)
本模型是基于facebook/bart-large在CiteSum数据集上微调的版本。"src"列作为输入,"title"列作为目标摘要。
作者
毛雨宁、钟明、韩家伟
伊利诺伊大学厄巴纳-香槟分校
{yuningm2, mingz5, hanj}@illinois.edu
性能指标
{
"训练轮数": 6.78,
"验证生成长度": 17.1775,
"验证损失": 1.9627,
"验证Rouge-1": 51.4834,
"验证Rouge-2": 29.9178,
"验证Rouge-L": 45.4882,
"验证Rouge-Lsum": 45.517,
"验证耗时(秒)": 351.9638,
"验证样本量": 4681,
"验证速度(样本/秒)": 13.3,
"验证速度(步/秒)": 0.21,
"预测生成长度": 17.1032,
"预测损失": 1.9392,
"预测Rouge-1": 52.0304,
"预测Rouge-2": 30.1511,
"预测Rouge-L": 45.9902,
"预测Rouge-Lsum": 46.0068,
"预测耗时(秒)": 363.9691,
"预测样本量": 4882,
"预测速度(样本/秒)": 13.413,
"预测速度(步/秒)": 0.212,
"训练损失": 1.0822,
"训练耗时(秒)": 24401.3762,
"训练样本量": 82653,
"训练速度(样本/秒)": 65.57,
"训练速度(步/秒)": 8.196
}
数据集说明
CiteSum:基于引文文本的科学文献极限摘要与低资源领域自适应
该数据集通过论文引文文本自动生成TLDR摘要(无需人工标注),规模达此前人工标注数据集SciTLDR的30倍。
项目主页
https://github.com/morningmoni/CiteSum
论文
https://arxiv.org/abs/2205.06207
数据集地址
https://huggingface.co/datasets/nbroad/citesum
使用方法
from transformers import pipeline
summarizer = pipeline("summarization", model="yuningm/bart-large-citesum-title")
article = '''我们描述了一种卷积神经网络,该网络使用话题标签作为监督信号来学习短文本帖子的特征表示。该方法在预测10万个可能话题标签的任务中训练了多达55亿单词。除了在话题标签预测任务本身表现优异外,其学习的文本表示(忽略话题标签)对其他任务也具实用性。为此我们展示了在文档推荐任务上的结果,其性能也优于多个基线模型。'''
summarizer(article)