语言:
- 英文
标签:
- 文本分类
- 零样本分类
流水线标签: 零样本分类
库名称: transformers
许可证: mit
deberta-v3-large-zeroshot-v1
模型描述
该模型专为使用Hugging Face流水线进行零样本分类而设计。相较于Hugging Face hub上我的其他零样本模型(https://huggingface.co/MoritzLaurer),该模型在零样本分类任务上应有显著提升。
该模型能完成一项通用任务:给定一段文本(也称为前提
),判断假设是真实
或不真实
(即蕴涵
与非蕴涵
关系)。
此任务格式基于自然语言推理任务(NLI)。其通用性使得任何分类任务均可转化为该形式。
训练数据
模型训练数据包含27个任务和310个类别的混合数据集,均已重构为此通用格式:
- 26个分类任务约40万文本:
'amazonpolarity', 'imdb', 'appreviews', 'yelpreviews', 'rottentomatoes',
'emotiondair', 'emocontext', 'empathetic',
'financialphrasebank', 'banking77', 'massive',
'wikitoxic_toxicaggregated', 'wikitoxic_obscene', 'wikitoxic_threat', 'wikitoxic_insult', 'wikitoxic_identityhate',
'hateoffensive', 'hatexplain', 'biasframes_offensive', 'biasframes_sex', 'biasframes_intent',
'agnews', 'yahootopics',
'trueteacher', 'spam', 'wellformedquery'。
各数据集详情参见:https://docs.google.com/spreadsheets/d/1Z18tMh02IiWgh6o8pfoMiI_LH4IXpr78wd_nmNd5FaE/edit?usp=sharing
- 5个NLI数据集约88.5万文本:"mnli", "anli", "fever", "wanli", "ling"
需注意,与其他NLI模型不同,本模型预测两个类别(蕴涵
vs 非蕴涵
)而非三个类别(蕴涵/中立/矛盾)
使用方法
简易零样本分类流水线
from transformers import pipeline
classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-large-zeroshot-v1")
sequence_to_classify = "安格拉·默克尔是德国政治家,基民盟领袖"
candidate_labels = ["政治", "经济", "娱乐", "环境"]
output = classifier(sequence_to_classify, candidate_labels, multi_label=False)
print(output)
数据与训练详情
数据准备及模型训练评估的完整开源代码见:https://github.com/MoritzLaurer/zeroshot-classifier/tree/main
局限性及偏差
该模型仅适用于文本分类任务。
潜在偏差问题请参考原始DeBERTa论文及各数据集相关论文。
许可证
基础模型(DeBERTa-v3)采用MIT许可证发布。
微调所用数据集遵循多种不同许可证。
非NLI数据集概述参见电子表格(含许可证、原始论文等信息):
https://docs.google.com/spreadsheets/d/1Z18tMh02IiWgh6o8pfoMiI_LH4IXpr78wd_nmNd5FaE/edit?usp=sharing
此外,模型还训练于以下NLI数据集:MNLI, ANLI, WANLI, LING-NLI, FEVER-NLI。
引用
若使用本模型,请引用:
@article{laurer_less_2023,
title = {更少标注,更多分类:通过深度迁移学习和BERT-NLI解决监督机器学习的数据稀缺问题},
issn = {1047-1987, 1476-4989},
shorttitle = {更少标注,更多分类},
url = {https://www.cambridge.org/core/product/identifier/S1047198723000207/type/journal_article},
doi = {10.1017/pan.2023.20},
language = {en},
urldate = {2023-06-20},
journal = {Political Analysis},
author = {劳雷尔, 莫里茨 and 范·阿特维尔特, 沃特 and 卡萨斯, 安德鲁 and 韦尔伯斯, 卡斯珀},
month = jun,
year = {2023},
pages = {1--33},
}
合作意向或问题咨询?
如有疑问或合作意向,请联系m{dot}laurer{at}vu{dot}nl或访问LinkedIn
调试与问题
请注意DeBERTa-v3发布于2021年12月6日,旧版HF Transformers可能存在运行问题(如分词器错误)。建议使用Transformers>=4.13版本。