deberta-v3-base-zeroshot-v1.1-all-33开源模型 - 免费支持33数据集387类别文本分类

首页

Deberta V3 Base Zeroshot V1.1 All 33

由 MoritzLaurer 开发

基于DeBERTa-v3的零样本分类模型，支持33个数据集和387个类别的通用文本分类任务

文本分类

Transformers

英语开源协议:MIT #零样本分类 #多任务通用 #英文NLI

下载量 7,152

发布时间 : 11/23/2023

模型简介

该模型专为使用Hugging Face流水线进行零样本分类而设计，能够执行通用分类任务，判断文本与假设的蕴含关系（真实/不真实）。

模型特点

零样本分类能力

无需微调即可执行多种文本分类任务，支持387个类别

多任务训练

在33个不同数据集上训练，涵盖多样化的分类场景

自然语言推理格式

将分类任务重新表述为自然语言推理问题（蕴含vs不蕴含）

模型能力

零样本文本分类

多类别分类

自然语言推理

使用案例

情感分析

评论情感分类

对产品评论进行正面/负面情感分类

主题分类

新闻主题识别

识别新闻文章所属的主题类别（如政治、经济等）

内容审核

有害内容检测

检测文本中是否包含仇恨言论或冒犯性内容

🚀 deberta-v3-base-zeroshot-v1.1-all-33

该模型专为使用Hugging Face管道进行零样本分类而设计。它可以执行通用的分类任务，即根据给定文本判断一个假设是“真”还是“非真”（entailment 与 not_entailment）。此任务格式基于自然语言推理任务（NLI），具有很强的通用性，任何分类任务都可以重新表述为该任务。

🚀 快速开始

简单的零样本分类管道

#!pip install transformers[sentencepiece]
from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "This example is about {}"
classes_verbalized = ["politics", "economy", "entertainment", "environment"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)

自定义假设模板示例

from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "Merkel is the leader of the party: {}"
classes_verbalized = ["CDU", "SPD", "Greens"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)

✨ 主要特性

通用分类能力：能够执行通用的分类任务，基于自然语言推理任务（NLI），可将任何分类任务重新表述为该任务。
训练数据丰富：在33个数据集和387个类别的混合数据上进行训练，涵盖多种NLI数据集和分类任务。
英文数据训练：模型仅在英文数据上进行训练，对于多语言用例，可使用机器翻译将文本转换为英文。

📦 安装指南

为避免运行模型时出现问题，请确保使用 Transformers>=4.13 版本，并安装 sentencepiece。可以运行以下命令进行安装：

pip install transformers[sentencepiece]

或者单独安装 sentencepiece：

pip install sentencepiece

💻 使用示例

基础用法

#!pip install transformers[sentencepiece]
from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "This example is about {}"
classes_verbalized = ["politics", "economy", "entertainment", "environment"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)

高级用法

from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "Merkel is the leader of the party: {}"
classes_verbalized = ["CDU", "SPD", "Greens"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)

📚 详细文档

关于模型的训练方式和使用方法的详细描述，请参考这篇论文。

训练数据详情

模型在混合了33个数据集和387个类别的数据上进行训练，这些数据已被重新格式化为通用格式：

五个NLI数据集：包含约885k条文本，分别为 "mnli"、"anli"、"fever"、"wanli"、"ling"。
28个分类任务：重新格式化为通用NLI格式，使用了约51k条清理后的文本以避免过拟合，包括 'amazonpolarity'、'imdb'、'appreviews' 等。

每个数据集的详细信息可参考：https://github.com/MoritzLaurer/zeroshot-classifier/blob/main/datasets_overview.csv

数据和训练代码

数据准备、模型训练和评估的代码完全开源，可参考：https://github.com/MoritzLaurer/zeroshot-classifier/tree/main

超参数和其他详细信息

超参数和其他详细信息可在Weights & Biases仓库中查看：https://wandb.ai/moritzlaurer/deberta-v3-base-zeroshot-v1-1-all-33/table?workspace=user-

评估指标

所有数据集均报告了平衡准确率。deberta-v3-base-zeroshot-v1.1-all-33 在所有数据集上进行训练，每个类别最多使用500条文本以避免过拟合。因此，这些数据集上的指标并非严格的零样本指标，因为模型在训练过程中已经见过每个任务的一些数据。deberta-v3-base-zeroshot-v1.1-heldout 表示在相应数据集上的零样本性能。为计算这些零样本指标，管道运行了28次，每次都将一个数据集排除在训练之外以模拟零样本设置。

figure_base_v1.1

	deberta-v3-base-mnli-fever-anli-ling-wanli-binary	deberta-v3-base-zeroshot-v1.1-heldout	deberta-v3-base-zeroshot-v1.1-all-33
datasets mean (w/o nli)	62	70.7	84
amazonpolarity (2)	91.7	95.7	96
imdb (2)	87.3	93.6	94.5
appreviews (2)	91.3	92.2	94.4
yelpreviews (2)	95.1	97.4	98.3
rottentomatoes (2)	83	88.7	90.8
emotiondair (6)	46.5	42.6	74.5
emocontext (4)	58.5	57.4	81.2
empathetic (32)	31.3	37.3	52.7
financialphrasebank (3)	78.3	68.9	91.2
banking77 (72)	18.9	46	73.7
massive (59)	44	56.6	78.9
wikitoxic_toxicaggreg (2)	73.7	82.5	90.5
wikitoxic_obscene (2)	77.3	91.6	92.6
wikitoxic_threat (2)	83.5	95.2	96.7
wikitoxic_insult (2)	79.6	91	91.6
wikitoxic_identityhate (2)	83.9	88	94.4
hateoffensive (3)	55.2	66.1	86
hatexplain (3)	44.1	57.6	76.9
biasframes_offensive (2)	56.8	85.4	87
biasframes_sex (2)	85.4	87	91.8
biasframes_intent (2)	56.3	85.2	87.8
agnews (4)	77.3	80	90.5
yahootopics (10)	53.6	57.7	72.8
trueteacher (2)	51.4	49.5	82.4
spam (2)	51.8	50	97.2
wellformedquery (2)	49.9	52.5	77.2
manifesto (56)	5.8	18.9	39.1
capsotu (21)	25.2	64	72.5
mnli_m (2)	92.4	nan	92.7
mnli_mm (2)	92.4	nan	92.5
fevernli (2)	89	nan	89.1
anli_r1 (2)	79.4	nan	80
anli_r2 (2)	68.4	nan	68.4
anli_r3 (2)	66.2	nan	68
wanli (2)	81.6	nan	81.8
lingnli (2)	88.4	nan	88.4

🔧 技术细节

该模型基于自然语言推理任务（NLI）进行设计，能够执行通用的分类任务。与其他NLI模型相比，该模型预测两个类别（entailment 与 not_entailment），而不是三个类别（entailment/neutral/contradiction）。

假设模板

以下是用于模型微调的假设模板，检查这些模板可以帮助用户了解模型训练的假设类型和任务：

wellformedquery

标签	假设
not_well_formed	此示例不是格式良好的谷歌查询
well_formed	此示例是格式良好的谷歌查询。

biasframes_sex

标签	假设
not_sex	此示例不包含性内容暗示。
sex	此示例包含性内容暗示。

biasframes_intent

标签	假设
intent	此示例的意图是冒犯/不尊重。
not_intent	此示例的意图不是冒犯/不尊重。

biasframes_offensive

标签	假设
not_offensive	此示例不能被视为冒犯、不尊重或有毒。
offensive	此示例可以被视为冒犯、不尊重或有毒。

financialphrasebank

标签	假设
negative	从投资者的角度来看，此示例的情绪是负面的。
neutral	从投资者的角度来看，此示例的情绪是中性的。
positive	从投资者的角度来看，此示例的情绪是正面的。

rottentomatoes

标签	假设
negative	此示例烂番茄电影评论的情绪是负面的
positive	此示例烂番茄电影评论的情绪是正面的

amazonpolarity

标签	假设
negative	此示例亚马逊产品评论的情绪是负面的
positive	此示例亚马逊产品评论的情绪是正面的

imdb

标签	假设
negative	此示例IMDb电影评论的情绪是负面的
positive	此示例IMDb电影评论的情绪是正面的

appreviews

标签	假设
negative	此示例应用评论的情绪是负面的。
positive	此示例应用评论的情绪是正面的。

yelpreviews

标签	假设
negative	此示例Yelp评论的情绪是负面的。
positive	此示例Yelp评论的情绪是正面的。

wikitoxic_toxicaggregated

标签	假设
not_toxicaggregated	此示例维基百科评论不包含有毒语言。
toxicaggregated	此示例维基百科评论包含有毒语言。

wikitoxic_obscene

标签	假设
not_obscene	此示例维基百科评论不包含淫秽语言。
obscene	此示例维基百科评论包含淫秽语言。

wikitoxic_threat

标签	假设
not_threat	此示例维基百科评论不包含威胁。
threat	此示例维基百科评论包含威胁。

wikitoxic_insult

标签	假设
insult	此示例维基百科评论包含侮辱。
not_insult	此示例维基百科评论不包含侮辱。

wikitoxic_identityhate

标签	假设
identityhate	此示例维基百科评论包含身份仇恨。
not_identityhate	此示例维基百科评论不包含身份仇恨。

hateoffensive

标签	假设
hate_speech	此示例推文包含仇恨言论。
neither	此示例推文既不包含冒犯性语言也不包含仇恨言论。
offensive	此示例推文包含无仇恨言论的冒犯性语言。

hatexplain

标签	假设
hate_speech	此示例来自Twitter或Gab的文本包含仇恨言论。
neither	此示例来自Twitter或Gab的文本既不包含冒犯性语言也不包含仇恨言论。
offensive	此示例来自Twitter或Gab的文本包含无仇恨言论的冒犯性语言。

spam

标签	假设
not_spam	此示例短信不是垃圾短信。
spam	此示例短信是垃圾短信。

emotiondair

标签	假设
anger	此示例推文表达的情绪是：愤怒
fear	此示例推文表达的情绪是：恐惧
joy	此示例推文表达的情绪是：喜悦
love	此示例推文表达的情绪是：爱
sadness	此示例推文表达的情绪是：悲伤
surprise	此示例推文表达的情绪是：惊讶

emocontext

标签	假设
angry	此示例推文表达的情绪是：愤怒
happy	此示例推文表达的情绪是：快乐
others	此示例推文不表达愤怒、悲伤或快乐中的任何一种情绪
sad	此示例推文表达的情绪是：悲伤

empathetic

标签	假设
afraid	此示例对话的主要情绪是：害怕
angry	此示例对话的主要情绪是：愤怒
annoyed	此示例对话的主要情绪是：恼火
anticipating	此示例对话的主要情绪是：期待
anxious	此示例对话的主要情绪是：焦虑
apprehensive	此示例对话的主要情绪是：担忧
ashamed	此示例对话的主要情绪是：羞愧
caring	此示例对话的主要情绪是：关心
confident	此示例对话的主要情绪是：自信
content	此示例对话的主要情绪是：满足
devastated	此示例对话的主要情绪是：崩溃
disappointed	此示例对话的主要情绪是：失望
disgusted	此示例对话的主要情绪是：厌恶
embarrassed	此示例对话的主要情绪是：尴尬
excited	此示例对话的主要情绪是：兴奋
faithful	此示例对话的主要情绪是：忠诚
furious	此示例对话的主要情绪是：狂怒
grateful	此示例对话的主要情绪是：感激
guilty	此示例对话的主要情绪是：内疚
hopeful	此示例对话的主要情绪是：希望
impressed	此示例对话的主要情绪是：印象深刻
jealous	此示例对话的主要情绪是：嫉妒
joyful	此示例对话的主要情绪是：喜悦
lonely	此示例对话的主要情绪是：孤独
nostalgic	此示例对话的主要情绪是：怀旧
prepared	此示例对话的主要情绪是：准备好
proud	此示例对话的主要情绪是：自豪
sad	此示例对话的主要情绪是：悲伤
sentimental	此示例对话的主要情绪是：多愁善感
surprised	此示例对话的主要情绪是：惊讶
terrified	此示例对话的主要情绪是：恐惧
trusting	此示例对话的主要情绪是：信任

agnews

标签	假设
Business	此示例新闻文本是关于商业新闻
Sci/Tech	此示例新闻文本是关于科学和技术
Sports	此示例新闻文本是关于体育
World	此示例新闻文本是关于世界新闻

yahootopics

标签	假设
Business & Finance	此示例来自雅虎问答论坛的问题归类于主题：商业与金融
Computers & Internet	此示例来自雅虎问答论坛的问题归类于主题：计算机与互联网
Education & Reference	此示例来自雅虎问答论坛的问题归类于主题：教育与参考
Entertainment & Music	此示例来自雅虎问答论坛的问题归类于主题：娱乐与音乐
Family & Relationships	此示例来自雅虎问答论坛的问题归类于主题：家庭与关系
Health	此示例来自雅虎问答论坛的问题归类于主题：健康
Politics & Government	此示例来自雅虎问答论坛的问题归类于主题：政治与政府
Science & Mathematics	此示例来自雅虎问答论坛的问题归类于主题：科学与数学
Society & Culture	此示例来自雅虎问答论坛的问题归类于主题：社会与文化
Sports	此示例来自雅虎问答论坛的问题归类于主题：体育

massive

标签	假设
alarm_query	此示例话语是关于闹钟的查询。
alarm_remove	此示例话语的意图是移除闹钟。
alarm_set	此示例话语的意图是设置闹钟。
audio_volume_down	此示例话语的意图是降低音量。
audio_volume_mute	此示例话语的意图是静音音量。
audio_volume_other	此示例话语与音频音量有关。
audio_volume_up	此示例话语的意图是调高音频音量。
calendar_query	此示例话语是关于日历的查询。
calendar_remove	此示例话语的意图是从日历中移除某些内容。
calendar_set	此示例话语的意图是在日历中设置某些内容。
cooking_query	此示例话语是关于烹饪的查询。
cooking_recipe	此示例话语是关于烹饪食谱。
datetime_convert	此示例话语与日期时间更改或转换有关。
datetime_query	此示例话语的意图是进行日期时间查询。
email_addcontact	此示例话语的意图是将电子邮件地址添加到联系人中。
email_query	此示例话语是关于电子邮件的查询。
email_querycontact	此示例话语的意图是查询联系人详细信息。
email_sendemail	此示例话语的意图是发送电子邮件。
general_greet	此示例话语是一般问候语。
general_joke	此示例话语的意图是听笑话。
general_quirky	nan
iot_cleaning	此示例话语的意图是让物联网设备开始清洁。
iot_coffee	此示例话语的意图是让物联网设备制作咖啡。
iot_hue_lightchange	此示例话语的意图是更改灯光。
iot_hue_lightdim	此示例话语的意图是调暗灯光。
iot_hue_lightoff	此示例话语与关闭灯光有关。
iot_hue_lighton	此示例话语与打开灯光有关。
iot_hue_lightup	此示例话语的意图是调亮灯光。
iot_wemo_off	此示例话语的意图是关闭物联网设备。
iot_wemo_on	此示例话语的意图是打开物联网设备。
lists_createoradd	此示例话语与创建或添加到列表有关。
lists_query	此示例话语是关于列表的查询。
lists_remove	此示例话语的意图是移除列表或从列表中移除某些内容。
music_dislikeness	此示例话语的意图是表示不喜欢音乐。
music_likeness	此示例话语与喜欢音乐有关。
music_query	此示例话语是关于音乐的查询。
music_settings	此示例话语的意图是更改音乐设置。
news_query	此示例话语是关于新闻的查询。
play_audiobook	此示例话语与播放有声读物有关。
play_game	此示例话语的意图是开始玩游戏。
play_music	此示例话语的意图是让物联网设备播放音乐。
play_podcasts	此示例话语与播放播客有关。
play_radio	此示例话语的意图是在收音机上播放某些内容。
qa_currency	此示例话语是关于货币的。
qa_definition	此示例话语是关于定义的查询。
qa_factoid	此示例话语是一个事实问题。
qa_maths	此示例话语是关于数学的问题。
qa_stock	此示例话语是关于股票的。
recommendation_events	此示例话语是关于活动推荐的。
recommendation_locations	此示例话语的意图是接收好地点的推荐。
recommendation_movies	此示例话语是关于电影推荐的。
social_post	此示例话语是关于社交媒体帖子的。
social_query	此示例话语是关于社交网络的查询。
takeaway_order	此示例话语的意图是订购外卖食品。
takeaway_query	此示例话语是关于外卖食品的。
transport_query	此示例话语是关于交通或旅行的查询。
transport_taxi	此示例话语的意图是叫出租车。
transport_ticket	此示例话语是关于交通票务的。
transport_traffic	此示例话语是关于交通或流量的。
weather_query	此示例话语是关于天气的查询。

banking77

标签	假设
Refund_not_showing_up	此客户示例消息是关于退款未显示的问题。
activate_my_card	此银行客户示例消息是关于激活卡的问题。
age_limit	此银行客户示例消息与年龄限制有关。
apple_pay_or_google_pay	此银行客户示例消息是关于苹果支付或谷歌支付的问题。
atm_support	此银行客户示例消息请求ATM支持。
automatic_top_up	此银行客户示例消息是关于自动充值的问题。
balance_not_updated_after_bank_transfer	此银行客户示例消息是关于银行转账后余额未更新的问题。
balance_not_updated_after_cheque_or_cash_deposit	此银行客户示例消息是关于支票或现金存款后余额未更新的问题。
beneficiary_not_allowed	此银行客户示例消息与受益人不被允许或转账失败有关。
cancel_transfer	此银行客户示例消息与取消转账有关。
card_about_to_expire	此银行客户示例消息与卡即将过期有关。
card_acceptance	此银行客户示例消息与卡的接受范围有关。
card_arrival	此银行客户示例消息是关于卡的到达问题。
card_delivery_estimate	此银行客户示例消息是关于卡的送达估计或时间问题。
card_linking	nan
card_not_working	此银行客户示例消息是关于卡无法使用的问题。
card_payment_fee_charged	此银行客户示例消息是关于卡支付费用的问题。
card_payment_not_recognised	此银行客户示例消息是关于客户未识别的支付问题。
card_payment_wrong_exchange_rate	此银行客户示例消息是关于错误汇率的问题。
card_swallowed	此银行客户示例消息是关于卡被机器吞卡的问题。
cash_withdrawal_charge	此银行客户示例消息是关于现金取款费用的问题。
cash_withdrawal_not_recognised	此银行客户示例消息是关于未识别的现金取款问题。
change_pin	此银行客户示例消息是关于更改PIN码的问题。
compromised_card	此银行客户示例消息是关于卡被盗用的问题。
contactless_not_working	此银行客户示例消息是关于非接触式支付无法使用的问题。
country_support	此银行客户示例消息是关于特定国家支持的问题。
declined_card_payment	此银行客户示例消息是关于卡支付被拒绝的问题。
declined_cash_withdrawal	此银行客户示例消息是关于现金取款被拒绝的问题。
declined_transfer	此银行客户示例消息是关于转账被拒绝的问题。
direct_debit_payment_not_recognised	此银行客户示例消息是关于未识别的直接借记支付问题。
disposable_card_limits	此银行客户示例消息是关于一次性卡的限额问题。
edit_personal_details	此银行客户示例消息是关于编辑个人详细信息的问题。
exchange_charge	此银行客户示例消息是关于汇率费用的问题。
exchange_rate	此银行客户示例消息是关于汇率的问题。
exchange_via_app	nan
extra_charge_on_statement	此银行客户示例消息是关于对账单上额外收费的问题。
failed_transfer	此银行客户示例消息是关于转账失败的问题。
fiat_currency_support	此银行客户示例消息是关于法定货币支持的问题。
get_disposable_virtual_card	此银行客户示例消息是关于获取一次性虚拟卡的问题。
get_physical_card	nan
getting_spare_card	此银行客户示例消息是关于获取备用卡的问题。
getting_virtual_card	此银行客户示例消息是关于获取虚拟卡的问题。
lost_or_stolen_card	此银行客户示例消息是关于卡丢失或被盗的问题。
lost_or_stolen_phone	此银行客户示例消息是关于手机丢失或被盗的问题。
order_physical_card	此银行客户示例消息是关于订购实体卡的问题。
passcode_forgotten	此银行客户示例消息是关于忘记密码的问题。
pending_card_payment	此银行客户示例消息是关于待处理的卡支付问题。
pending_cash_withdrawal	此银行客户示例消息是关于待处理的现金取款问题。
pending_top_up	此银行客户示例消息是关于待处理的充值问题。
pending_transfer	此银行客户示例消息是关于待处理的转账问题。
pin_blocked	此银行客户示例消息是关于PIN码被锁定的问题。
receiving_money	此银行客户示例消息是关于收款的问题。
request_refund	此银行客户示例消息是关于退款请求的问题。
reverted_card_payment?	此银行客户示例消息是关于撤销卡支付的问题。
supported_cards_and_currencies	nan
terminate_account	此银行客户示例消息是关于终止账户的问题。
top_up_by_bank_transfer_charge	nan
top_up_by_card_charge	此银行客户示例消息是关于通过卡充值的费用问题。
top_up_by_cash_or_cheque	此银行客户示例消息是关于通过现金或支票充值的问题。
top_up_failed	此银行客户示例消息是关于充值问题或失败的问题。
top_up_limits	此银行客户示例消息是关于充值限制的问题。
top_up_reverted	此银行客户示例消息是关于充值问题的问题。
topping_up_by_card	此银行客户示例消息是关于通过卡充值的问题。
transaction_charged_twice	此银行客户示例消息是关于交易重复收费的问题。
transfer_fee_charged	此银行客户示例消息是关于转账费用问题的问题。
transfer_into_account	此银行客户示例消息是关于转入客户自己账户的转账问题。
transfer_not_received_by_recipient	此银行客户示例消息是关于转账未被接收方收到的问题。
transfer_timing	此银行客户示例消息是关于转账时间的问题。
unable_to_verify_identity	此银行客户示例消息是关于身份验证问题的问题。
verify_my_identity	此银行客户示例消息是关于身份验证的问题。
verify_source_of_funds	此银行客户示例消息是关于资金来源的问题。
verify_top_up	此银行客户示例消息是关于验证和充值的问题。
virtual_card_not_working	此银行客户示例消息是关于虚拟卡无法使用的问题。
visa_or_mastercard	此银行客户示例消息是关于银行卡类型的问题。
why_verify_identity	此银行客户示例消息质疑为什么需要身份验证。
wrong_amount_of_cash_received	此银行客户示例消息是关于收到错误现金金额的问题。
wrong_exchange_rate_for_cash_withdrawal	此银行客户示例消息是关于现金取款错误汇率的问题。

trueteacher

标签	假设
factually_consistent	此示例摘要与全文在事实方面一致。
factually_inconsistent	此示例摘要与全文在事实方面不一致。

capsotu

标签	假设
Agriculture	此示例来自美国总统演讲的文本是关于农业的。
Civil Rights	此示例来自美国总统演讲的文本是关于民权、少数群体或公民自由的。
Culture	此示例来自美国总统演讲的文本是关于文化政策的。
Defense	此示例来自美国总统演讲的文本是关于国防或军事的。
Domestic Commerce	此示例来自美国总统演讲的文本是关于银行、金融或商业的。
Education	此示例来自美国总统演讲的文本是关于教育的。
Energy	此示例来自美国总统演讲的文本是关于能源、电力或化石燃料的。
Environment	此示例来自美国总统演讲的文本是关于环境、水、废物或污染的。
Foreign Trade	此示例来自美国总统演讲的文本是关于对外贸易的。
Government Operations	此示例来自美国总统演讲的文本是关于政府运营或行政管理的。
Health	此示例来自美国总统演讲的文本是关于健康的。
Housing	此示例来自美国总统演讲的文本是关于社区发展或住房问题的。
Immigration	此示例来自美国总统演讲的文本是关于移民的。
International Affairs	此示例来自美国总统演讲的文本是关于国际事务或对外援助的。
Labor	此示例来自美国总统演讲的文本是关于就业或劳动的。
Law and Crime	此示例来自美国总统演讲的文本是关于法律、犯罪或家庭问题的。
Macroeconomics	此示例来自美国总统演讲的文本是关于宏观经济学的。
Public Lands	此示例来自美国总统演讲的文本是关于公共土地或水资源管理的。
Social Welfare	此示例来自美国总统演讲的文本是关于社会福利的。
Technology	此示例来自美国总统演讲的文本是关于太空、科学、技术或通信的。
Transportation	此示例来自美国总统演讲的文本是关于交通的。

manifesto

标签	假设
Agriculture and Farmers: Positive	此示例来自政党宣言的文本对农业和农民政策持积极态度。
Anti-Growth Economy: Positive	此示例来自政党宣言的文本支持反增长政治。
Anti-Imperialism	此示例来自政党宣言的文本反帝国主义，例如反对控制其他国家，支持殖民地更大程度的自治。
Centralisation	此示例来自政党宣言的文本支持政治集中化。
Civic Mindedness: Positive	此示例来自政党宣言的文本对国家团结、公民社会或公共精神呼吁持积极态度，或反对反社会态度。
Constitutionalism: Negative	此示例来自政党宣言的文本对宪政主义持积极态度。
Constitutionalism: Positive	此示例来自政党宣言的文本对宪政主义和宪法现状持积极态度。
Controlled Economy	此示例来自政党宣言的文本支持政府对经济的直接控制，例如价格控制或最低工资。
Corporatism/Mixed Economy	此示例来自政党宣言的文本对政府、雇主和工会的同时合作持积极态度。
Culture: Positive	此示例来自政党宣言的文本支持文化政策或休闲设施，例如博物馆、图书馆或公共体育俱乐部。
Decentralization	此示例来自政党宣言的文本支持权力下放或联邦制。
Democracy	此示例来自政党宣言的文本有利地提及民主或民主程序或机构。
Economic Goals	此示例来自政党宣言的文本是关于经济目标的宽泛/一般声明，没有具体细节。
Economic Growth: Positive	此示例来自政党宣言的文本支持经济增长，例如促进更多生产或政府对增长的援助。
Economic Orthodoxy	此示例来自政党宣言的文本支持经济正统观念，例如减少预算赤字、节俭或强势货币。
Economic Planning	此示例来自政党宣言的文本对政府经济规划持积极态度，例如政策计划或战略。
Education Expansion	此示例来自政党宣言的文本是关于需要扩大/改进教育政策。
Education Limitation	此示例来自政党宣言的文本对国家教育支出持怀疑态度，例如支持学费或私立学校。
Environmental Protection	此示例来自政党宣言的文本支持环境保护，例如应对气候变化或“绿色”政策，或保护自然资源或动物权利。
Equality: Positive	此示例来自政党宣言的文本对平等或社会正义持积极态度，例如保护弱势群体或公平分配资源。
European Community/Union: Negative	此示例来自政党宣言的文本负面提及欧盟或欧洲共同体。
European Community/Union: Positive	此示例来自政党宣言的文本对欧盟或欧洲共同体持积极态度，例如欧盟扩张和一体化。
Foreign Special Relationships: Negative	此示例来自政党宣言的文本对特定国家持负面态度。
Foreign Special Relationships: Positive	此示例来自政党宣言的文本对特定国家持积极态度。
Free Market Economy	此示例来自政党宣言的文本支持自由市场经济和资本主义。
Freedom and Human Rights	此示例来自政党宣言的文本支持自由和人权，例如言论自由、集会自由，或反对国家强制，或支持个人主义。
Governmental and Administrative Efficiency	此示例来自政党宣言的文本支持政府/行政效率，例如通过重组公务员队伍或改善官僚作风。
Incentives: Positive	此示例来自政党宣言的文本支持支持企业的供应侧经济政策，例如补贴或税收减免等激励措施。
Internationalism: Negative	此示例来自政党宣言的文本对国际主义持怀疑态度，例如反对国际合作，支持国家主权和单边主义。
Internationalism: Positive	此示例来自政党宣言的文本支持与其他国家的国际合作，例如提及需要援助发展中国家，或全球治理。
Keynesian Demand Management	此示例来自政党宣言的文本支持凯恩斯主义需求管理和需求侧经济政策。
Labour Groups: Negative	此示例来自政党宣言的文本对劳工团体和工会持负面态度。
Labour Groups: Positive	此示例来自政党宣言的文本对劳工团体持积极态度，例如支持良好的工作条件、公平工资或工会。
Law and Order: Positive	此示例来自政党宣言的文本对法律和秩序以及严格执法持积极态度。
Market Regulation	此示例来自政党宣言的文本支持市场监管以实现公平和开放的市场，例如消费者保护、增加竞争或社会市场经济。
Marxist Analysis	此示例来自政党宣言的文本对马克思列宁主义思想持积极态度，或使用特定的马克思主义术语。
Middle Class and Professional Groups	此示例来自政党宣言的文本有利地提及中产阶级，例如白领群体或服务业。
Military: Negative	此示例来自政党宣言的文本对军事持负面态度，例如减少军事开支或裁军。
Military: Positive	此示例来自政党宣言的文本对军事持积极态度，例如军事开支、重新武装或军事条约义务。
Multiculturalism: Negative	此示例来自政党宣言的文本对多元文化主义持怀疑态度，或支持文化融合或呼吁社会文化同质化。
Multiculturalism: Positive	此示例来自政党宣言的文本有利地提及文化多样性，例如宗教自由或语言遗产。
National Way of Life: Negative	此示例来自政党宣言的文本不利地提及一个国家的民族和历史，例如对爱国主义或民族自豪感持怀疑态度。
National Way of Life: Positive	此示例来自政党宣言的文本对民族生活方式和历史持积极态度，例如公民自豪感或爱国主义呼吁。
Nationalisation	此示例来自政党宣言的文本对政府拥有产业或土地持积极态度，或支持经济国有化。
Non-economic Demographic Groups	此示例来自政党宣言的文本有利地提及非经济人口群体，如妇女、学生或特定年龄组。
Peace	此示例来自政党宣言的文本支持和平和以和平方式解决危机，例如支持谈判和结束战争。
Political Authority	此示例来自政党宣言的文本提及演讲者的治理能力或其他政党缺乏此类能力，或有利地提及强大/稳定的政府。
Political Corruption	此示例来自政党宣言的文本对政治腐败或滥用政治/官僚权力持负面态度。
Protectionism: Negative	此示例来自政党宣言的文本反对保护主义，支持自由贸易。
Protectionism: Positive	此示例来自政党宣言的文本支持保护主义，例如关税、出口补贴。
Technology and Infrastructure: Positive	此示例来自政党宣言的文本是关于技术和基础设施的，例如工业现代化的重要性，或支持公共基础设施/技术支出。
Traditional Morality: Negative	此示例来自政党宣言的文本对传统道德持负面态度，例如反对宗教道德价值观、支持离婚或堕胎、支持现代家庭或政教分离。
Traditional Morality: Positive	此示例来自政党宣言的文本支持传统或宗教价值观，例如审查不道德行为、支持传统家庭价值观或宗教机构。
Underprivileged Minority Groups	此示例来自政党宣言的文本有利地提及弱势群体，例如残疾人、同性恋者或移民。
Welfare State Expansion	此示例来自政党宣言的文本支持福利国家，例如医疗保健、养老金或社会住房。
Welfare State Limitation	此示例来自政党宣言的文本支持限制福利国家，例如社会服务或社会保障的公共资金，例如私人护理优先于国家护理。

📄 许可证

基础模型（DeBERTa-v3）根据MIT许可证发布。模型微调所使用的数据集根据不同的许可证发布。以下表格提供了用于微调的非NLI数据集的概述、许可证信息、相关论文等详细信息：https://github.com/MoritzLaurer/zeroshot-classifier/blob/main/datasets_overview.csv

📚 引用

如果您在学术研究中使用此模型，请引用以下文献：

@misc{laurer_building_2023,
    title = {Building {Efficient} {Universal} {Classifiers} with {Natural} {Language} {Inference}},
    url = {http://arxiv.org/abs/2312.17543},
    doi = {10.48550/arXiv.2312.17543},
    abstract = {Generative Large Language Models (LLMs) have become the mainstream choice for fewshot and zeroshot learning thanks to the universality of text generation. Many users, however, do not need the broad capabilities of generative LLMs when they only want to automate a classification task. Smaller BERT-like models can also learn universal tasks, which allow them to do any text classification task without requiring fine-tuning (zeroshot classification) or to learn new tasks with only a few examples (fewshot), while being significantly more efficient than generative LLMs. This paper (1) explains how Natural Language Inference (NLI) can be used as a universal classification task that follows similar principles as instruction fine-tuning of generative LLMs, (2) provides a step-by-step guide with reusable Jupyter notebooks for building a universal classifier, and (3) shares the resulting universal classifier that is trained on 33 datasets with 389 diverse classes. Parts of the code we share has been used to train our older zeroshot classifiers that have been downloaded more than 55 million times via the Hugging Face Hub as of December 2023. Our new classifier improves zeroshot performance by 9.4\%.},
    urldate = {2024-01-05},
    publisher = {arXiv},
    author = {Laurer, Moritz and van Atteveldt, Wouter and Casas, Andreu and Welbers, Kasper},
    month = dec,
    year = {2023},
    note = {arXiv:2312.17543 [cs]},
    keywords = {Computer Science - Artificial Intelligence, Computer Science - Computation and Language},
}

🤝 合作与咨询

如果您有合作想法或问题，请通过 m{dot}laurer{at}vu{dot}nl 联系我，或在 LinkedIn 上与我交流。

⚠️ 注意事项

版本问题：DeBERTa-v3 于2021年12月6日发布，较旧版本的HF Transformers可能在运行模型时出现问题（例如分词器问题）。使用 Transformers>=4.13 可能会解决一些问题。
依赖安装：请确保安装 sentencepiece 以避免分词器错误，可以运行 pip install transformers[sentencepiece] 或 pip install sentencepiece 进行安装。
数据集问题：massive 和 banking77 数据集中的一些行包含 nan，因为某些类别过于模糊/不明确，已从数据中排除。