pipeline_tag: 零样本分类
license: apache-2.0
language:
- 英语
tags:
- 零样本
- 文本分类
- 科学
- 微软学术图谱
widget:
- text: "梅西是有史以来最伟大的球员"
candidate_labels: "政治, 科学, 体育, 环境"
multi_class: true
SCIroShot
模型概览
点击展开
- 模型类型: 语言模型
- 架构: RoBERTa-large
- 语言: 英语
- 许可协议: Apache 2.0
- 任务: 零样本文本分类
- 数据来源: 微软学术图谱
- 附加资源:
模型描述
SCIroShot是基于蕴含关系的零样本文本分类模型,通过使用由微软学术图谱(MAG)科学论文构建的自制数据集进行微调。该模型在科学领域达到最先进性能,在其他领域也表现优异。
使用场景
本模型适用于英语零样本文本分类任务。
使用方法
from transformers import pipeline
zstc = pipeline("zero-shot-classification", model="BSC-LT/sciroshot")
sentence = "梅西是有史以来最伟大的球员。"
candidate_labels = ["政治", "科学", "体育", "环境"]
template = "这个例子属于{}类别"
output = zstc(sentence, candidate_labels, hypothesis_template=template, multi_label=False)
print(output)
print(f'预测类别: {output["labels"][0]}')
局限性及偏差
尚未对模型内嵌的偏差和毒性进行评估。虽然微调数据(科学性质)看似无害,但需注意基础模型预训练语料可能包含大量未过滤的互联网内容,详见RoBERTa-large模型卡片。
训练过程
训练数据
基于微软学术图谱(MAG)的科学领域标注数据构建。该数据库包含科学出版物和专利的异构图谱,涉及作者、机构、期刊、会议及引用关系等元数据。文档按六层科学概念层次结构组织,顶层两级经人工校验确保高准确度。
通过随机抽取2000-2021年间英文标题和摘要的科学论文,获得超过200万篇文档及其对应的"研究领域"标签(来自MAG一级分类体系的292个类别,如"计算生物学"或"交通工程")。通过将文本分类数据转换为蕴含格式构建弱监督微调数据集:正样本由文本与其真实科学概念的蕴含关系生成,负样本通过虚拟构建文本与非匹配概念的关系生成。
训练方法
使用新建科学数据集对3.55亿参数的RoBERTa模型进行蕴含任务微调。模型需计算输入文本与所有候选标签的蕴含分数,单标签分类取最高分,多标签分类取超过阈值的多个类别。
保留52个标签作为开发集用于验证。创新性地直接在目标文本分类任务(而非代理的蕴含任务)上进行验证,通过早停法防止模型对训练任务的过拟合。实验发现,当模型在ZSTC任务表现开始下降时,RTE任务仍在提升,缩短训练时间可显著提升性能。详见论文关于RTE/ZSTC相关性分析的方法论。
评估
评估数据
在科学领域(接近训练数据)和通用领域(评估泛化性)的多学科标注文本数据集上进行评估:
数据集 |
标签数 |
样本量 |
arXiv |
11 |
3,838 |
SciDocs-MeSH |
11 |
16,433 |
SciDocs-MAG |
19 |
17,501 |
Konstanz |
24 |
10,000 |
Elsevier |
26 |
14,738 |
PubMed |
109 |
5,000 |
雅虎问答主题分类 |
10 |
60,000 |
情感检测 |
10 |
15,689 |
情境框架检测 |
12 |
3,311 |
评估结果
科学领域基准
模型 |
arXiv |
SciDocs-MesH |
SciDocs-MAG |
Konstanz |
Elsevier |
PubMed |
fb/bart-large-mnli |
33.28 |
66.18🔥 |
51.77 |
54.62 |
28.41 |
31.59🔥 |
SCIroShot |
42.22🔥 |
59.34 |
69.86🔥 |
66.07🔥 |
54.42🔥 |
27.93 |
通用领域基准
模型 |
主题分类 |
情感检测 |
情境检测 |
RTE |
43.8 |
12.6 |
37.2🔥 |
FEVER |
40.1 |
24.7 |
21.0 |
MNLI |
37.9 |
22.3 |
15.4 |
NSP |
50.6 |
16.5 |
25.8 |
NSP-Reverse |
53.1 |
16.1 |
19.9 |
SCIroShot |
59.08🔥 |
24.94🔥 |
27.42 |
除主题分类数据集采用准确率评估外,其余均为标签加权F1值。
附加信息
作者
- SIRIS实验室(SIRIS Academic研究部门)
- 巴塞罗那超级计算中心语言技术部
联系方式
发送邮件至langtech@bsc.es或info@sirisacademic.com
许可协议
Apache License, Version 2.0
资助
欧盟H2020计划资助项目:
- INODE(授权协议号863410)
- IntelComp(授权协议号101004870)
引用
@inproceedings{pamies2023weakly,
title={A weakly supervised textual entailment approach to zero-shot text classification},
author={P{\`a}mies, Marc and Llop, Joan and Multari, Francesco and Duran-Silva, Nicolau and Parra-Rojas, C{\'e}sar and Gonz{\'a}lez-Agirre, Aitor and Massucci, Francesco Alessandro and Villegas, Marta},
booktitle={Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics},
pages={286--296},
year={2023}
}
免责声明
点击展开
本模型基于Apache v2.0许可发布,供通用目的使用。请注意模型可能存在偏差或其他不良失真。第三方在使用本模型(或基于其构建的系统)时,有责任降低使用风险并遵守相关法规(包括人工智能使用法规)。模型所有者及创建者不对第三方使用结果承担任何责任。