模型描述:roberta-base-zeroshot-v2.0-c
zeroshot-v2.0系列模型
该系列模型专为Hugging Face pipeline的高效零样本分类设计,无需训练数据即可执行分类任务,支持GPU与CPU运行。最新零样本分类器概览可参阅我的零样本分类器合集。
zeroshot-v2.0
系列的核心升级在于:部分模型采用完全商业友好的数据训练,满足严格许可证要求用户的需求。
这些模型能执行一项通用分类任务:给定文本时判断假设为"真"或"非真"(entailment
vs. not_entailment
)。该任务格式基于自然语言推理任务(NLI),其通用性使得任何分类任务均可通过Hugging Face pipeline重构为此形式。
训练数据
名称含"-c
"的模型使用两类完全商业友好的数据训练:
- 通过Mixtral-8x7B-Instruct-v0.1生成的合成数据:首先基于与Mistral-large的对话创建了涵盖25个行业的500+多样化文本分类任务清单(经人工校验),随后以此为种子数据生成数十万文本。最终数据集见synthetic_zeroshot_mixtral_v0.1的
mixtral_written_text_for_tasks_v4
子集。
- 两个商业友好的NLI数据集:MNLI与FEVER-NLI,用于增强泛化能力。
- 名称不含"
-c
"的模型还包含许可证更广泛的混合数据:ANLI、WANLI、LingNLI及此列表中标记used_in_v1.1==True
的所有数据集。
使用方法
from transformers import pipeline
text = "安格拉·默克尔是德国政治家,基民盟领袖"
hypothesis_template = "本文内容涉及{}"
classes_verbalized = ["政治", "经济", "娱乐", "环境"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-large-zeroshot-v2.0")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)
multi_label=False
强制单选,multi_label=True
允许多选。
性能指标
模型在28个文本分类任务上采用f1_macro指标评估。主要参照点为当前(2024.04.03)最常用的商业友好零样本分类器facebook/bart-large-mnli
。

(此处保留原始性能表格,仅翻译表头与关键描述)
这些数值反映零样本性能(训练数据未包含这些数据集)。注:名称不含"-c
"的模型评估两次——纯零样本测试(列中首数字)与每类最多500样本的少样本测试(括号内数字)。测试数据始终未参与训练。
各数据集详情见:数据集概览
模型选型建议
- deberta-v3 vs roberta:deberta-v3性能更优但稍慢。roberta直接兼容Hugging Face生产级TEI推理容器与flash attention,适合生产环境。追求精度选deberta-v3,重视推理速度选roberta(如搭配HF推理端点)。
- 商业用途:带"
-c
"的模型确保训练数据完全商业友好。不带"-c
"的模型性能更优但含非商业许可数据,法律要求严格者建议选前者。
- 多语言/非英语场景:选用bge-m3-zeroshot-v2.0或其商业友好版。多语言模型性能弱于英语专用模型,可先用EasyNMT等库翻译至英语再处理。
- 上下文窗口:
bge-m3
支持8192token,其他模型限512token。长文本会降低性能与速度,400词/1页内文本建议使用deberta等模型。
- 最新模型动态见零样本分类器合集。
复现
代码见GitHub目录:v2_synthetic_data
局限与偏差
模型仅适用于文本分类。偏差可能源于基础模型、人工NLI数据及Mixtral生成的合成数据。
许可
基础模型采用MIT许可证。训练数据许可因模型而异(详见上文)。
引用
本模型延伸自论文研究,学术引用请使用:
@misc{laurer_building_2023,
title = {基于自然语言推理构建高效通用分类器},
url = {http://arxiv.org/abs/2312.17543},
author = {Laurer, Moritz and van Atteveldt, Wouter and Casas, Andreu and Welbers, Kasper},
year = {2023},
month = dec,
note = {arXiv:2312.17543 [cs]},
}
合作咨询
联系邮箱:moritz{at}huggingface{dot}co 或 LinkedIn
灵活使用与"提示工程"
通过修改hypothesis_template
可自定义假设表述,类似LLM的"提示工程"。测试不同表述可提升性能:
hypothesis_template = "本文主题是{}"
classes_verbalized = ["政治", "经济", "娱乐", "环保"]
hypothesis_template = "文本讨论{}相关话题"
classes_verbalized = ["政治活动", "经济政策", "娱乐音乐", "环境保护"]