语言:
- 英文
标签:
- 文本分类
- 零样本分类
基础模型: microsoft/deberta-v3-large
流水线标签: 零样本分类
库名称: transformers
许可证: mit
模型描述: deberta-v3-large-zeroshot-v2.0
zeroshot-v2.0 系列模型
该系列模型专为使用Hugging Face流水线进行高效零样本分类而设计。
这些模型无需训练数据即可进行分类任务,并可在GPU和CPU上运行。
最新零样本分类器的概览可参阅我的零样本分类器集合。
zeroshot-v2.0
系列模型的主要更新在于,部分模型基于完全商业友好的数据训练,以满足严格许可证要求的用户需求。
这些模型能执行一项通用分类任务:给定文本,判断假设为"真"或"非真"(蕴含
vs. 非蕴含
)。
该任务格式基于自然语言推理任务(NLI)。
其通用性使得任何分类任务均可通过Hugging Face流水线重新表述为此任务形式。
训练数据
名称含"-c
"的模型基于两类完全商业友好的数据训练:
- 使用Mixtral-8x7B-Instruct-v0.1生成的合成数据。
我首先通过与Mistral-large对话创建了涵盖25个职业的500+多样化文本分类任务列表,并进行了人工筛选。
随后以此为种子数据,用Mixtral-8x7B-Instruct-v0.1生成了数十万条相关文本。
最终数据集见synthetic_zeroshot_mixtral_v0.1中的mixtral_written_text_for_tasks_v4
子集。数据经过多轮筛选,未来版本将持续优化。
- 两个商业友好的NLI数据集:(MNLI, FEVER-NLI),用于增强泛化能力。
- 名称不含"
-c
"的模型还包含许可证更广泛的混合训练数据:ANLI、WANLI、LingNLI及此列表中标记used_in_v1.1==True
的所有数据集。
模型使用方法
from transformers import pipeline
text = "安格拉·默克尔是德国政治家,基民盟领袖"
hypothesis_template = "本文内容涉及{}"
classes_verbalized = ["政治", "经济", "娱乐", "环境"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-large-zeroshot-v2.0")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)
multi_label=False
强制模型单选类别,multi_label=True
允许多选。
性能指标
模型在28个文本分类任务上采用f1_macro指标评估。
主要参照点为当前(2024.04.03)最常用的商业友好零样本分类器facebook/bart-large-mnli
。

(此处保留原始表格结构,仅翻译表头与关键描述)
这些数值反映零样本性能,因训练数据未包含这些测试集。
注意:名称不含"-c
"的模型评估两次——首次为纯零样本测试(列中首数字),第二次包含每类最多500条训练数据的少样本测试(括号内数字)。所有模型均未使用测试集训练。
各数据集详情见:https://github.com/MoritzLaurer/zeroshot-classifier/blob/main/v1_human_data/datasets_overview.csv
模型选型指南
- deberta-v3 vs roberta:deberta-v3性能显著更优但稍慢。roberta直接兼容Hugging Face生产级TEI推理容器和flash attention,适合生产环境。
- 商业用途:带"
-c
"的模型确保训练数据完全商业友好。不带该标记的模型性能更强但含非商业许可数据,法律解释存在分歧。
- 多语言/非英语场景:使用bge-m3-zeroshot-v2.0或其商业友好版。多语言模型性能弱于英语专用模型,可先用EasyNMT等库翻译文本再处理。
- 上下文窗口:
bge-m3
支持8192词元,其他模型限512词元。长文本会降低性能,若处理≤400词/1页文本,建议使用deberta模型。
- 最新模型动态见零样本分类器集合。
复现
代码见v2_synthetic_data
目录:https://github.com/MoritzLaurer/zeroshot-classifier/tree/main
局限与偏差
模型仅适用于文本分类。
偏差可能源自底层基础模型、人工NLI训练数据及Mixtral生成的合成数据。
许可证
基础模型采用MIT许可证。
训练数据许可证因模型而异,详见上文。
引用
本模型基于此论文研究扩展。
学术引用请使用:
@misc{laurer_building_2023,
title = {基于自然语言推理构建高效通用分类器},
url = {http://arxiv.org/abs/2312.17543},
doi = {10.48550/arXiv.2312.17543},
author = {Laurer, Moritz and van Atteveldt, Wouter and Casas, Andreu and Welbers, Kasper},
year = {2023},
month = dec,
note = {arXiv:2312.17543 [cs]},
}
合作或咨询
请联系moritz{at}huggingface{dot}co或LinkedIn
灵活使用与"提示工程"
可通过修改hypothesis_template
自定义假设表述。类似LLM的"提示工程",测试不同表述可提升性能:
hypothesis_template = "本文内容涉及{}"
classes_verbalized = ["政治", "经济", "娱乐", "环境"]
hypothesis_template = "本文主题为{}"
classes_verbalized = ["政治活动", "经济政策", "娱乐音乐", "环境保护"]