xlm - roberta - large - xnli开源模型 - 免费实现15种语言零样本文本分类

首页

Xlm Roberta Large Xnli

由 joeddav 开发

基于xlm-roberta-large预训练模型，在15种语言的NLI数据上微调，专为零样本文本分类设计

大型语言模型

Transformers

支持多种语言开源协议:MIT #多语言零样本分类 #跨语言NLI #XNLI微调

下载量 109.12k

发布时间 : 3/2/2022

模型简介

支持多语言的零样本文本分类任务，特别适用于非英语语种，基于跨语言NLI数据集XNLI微调

模型特点

多语言支持

支持15种语言的零样本分类，基础模型预训练涵盖100种语言

跨语言能力

标签与待分类文本可使用不同语言，实现跨语言分类

NLI微调

基于MNLI和XNLI数据集进行自然语言推理任务微调

模型能力

零样本文本分类

多语言文本理解

跨语言推理

使用案例

文本分类

政治文本分类

对政治相关文本进行多标签分类（如选举、外交政策等）

可准确识别文本涉及的政治领域

跨语言内容审核

对多语言用户生成内容进行分类审核

无需针对每种语言单独训练模型

🚀 xlm-roberta-large-xnli

本模型可用于零样本的文本分类任务，通过在多语言自然语言推理（NLI）数据上微调，能在多种语言中实现高效准确的文本分类。

🚀 快速开始

本模型基于 [xlm - roberta - large](https://huggingface.co/xlm - roberta - large)，在包含15种语言的NLI数据组合上进行微调。它适用于零样本的文本分类任务，例如可与Hugging Face的 ZeroShotClassificationPipeline 一起使用。

✨ 主要特性

多语言支持：该模型经过在XNLI（多语言NLI数据集）上的微调，可用于XNLI语料库中的任意语言，包括英语、法语、西班牙语、德语等15种语言。由于基础模型在100种不同语言上进行了预训练，因此在上述列出语言之外的其他语言中也表现出了一定的有效性。
零样本分类：特别适用于非英语语言的零样本文本分类任务。

💻 使用示例

基础用法

使用Hugging Face的 zero - shot - classification 管道加载模型：

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="joeddav/xlm-roberta-large-xnli")

然后可以对任意上述支持的语言进行分类，甚至可以使用一种语言的标签对另一种语言的文本进行分类：

# 我们将对“2020年你会投票给谁？”的俄语翻译进行分类
sequence_to_classify = "За кого вы голосуете в 2020 году?"
# 我们可以用俄语或上述任何其他语言指定候选标签
candidate_labels = ["Europe", "public health", "politics"]
classifier(sequence_to_classify, candidate_labels)
# {'labels': ['politics', 'Europe', 'public health'],
#  'scores': [0.9048484563827515, 0.05722189322113991, 0.03792969882488251],
#  'sequence': 'За кого вы голосуете в 2020 году?'}

默认的假设模板是英语的 This text is {}。如果只在一种语言环境下工作，将其翻译成相应语言可能会更有效：

sequence_to_classify = "¿A quién vas a votar en 2020?"
candidate_labels = ["Europa", "salud pública", "política"]
hypothesis_template = "Este ejemplo es {}."
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
# {'labels': ['política', 'Europa', 'salud pública'],
#  'scores': [0.9109585881233215, 0.05954807624220848, 0.029493311420083046],
#  'sequence': '¿A quién vas a votar en 2020?'}

高级用法

手动使用PyTorch进行操作：

# 将文本序列作为NLI前提，标签作为假设
from transformers import AutoModelForSequenceClassification, AutoTokenizer
nli_model = AutoModelForSequenceClassification.from_pretrained('joeddav/xlm-roberta-large-xnli')
tokenizer = AutoTokenizer.from_pretrained('joeddav/xlm-roberta-large-xnli')

premise = sequence
hypothesis = f'This example is {label}.'

# 通过在MNLI上预训练的模型进行处理
x = tokenizer.encode(premise, hypothesis, return_tensors='pt',
                     truncation_strategy='only_first')
logits = nli_model(x.to(device))[0]

# 我们舍弃“中立”（维度1），并将“蕴含”（维度2）的概率作为标签为真的概率
entail_contradiction_logits = logits[:,[0,2]]
probs = entail_contradiction_logits.softmax(dim=1)
prob_label_is_true = probs[:,1]

🔧 技术细节

该模型首先在100种语言的数据集上进行预训练，具体可参考原始论文。然后在MNLI训练集以及XNLI验证集和测试集的组合上针对NLI任务进行微调。最后，在XNLI数据上额外训练一个epoch，其中前提和假设的翻译被打乱，使得每个示例的前提和假设来自同一个原始英语示例，但前提和假设使用不同的语言。

📄 许可证

本模型使用的许可证为MIT。

属性	详情
模型类型	基于xlm - roberta - large微调的零样本分类模型
训练数据	100种语言的预训练数据，MNLI训练集、XNLI验证集和测试集，打乱前提和假设语言的XNLI数据

💡 使用建议

对于仅英语的分类任务，建议使用 [bart - large - mnli](https://huggingface.co/facebook/bart - large - mnli) 或 [蒸馏的bart MNLI模型](https://huggingface.co/models?filter=pipeline_tag%3Azero - shot - classification&search=valhalla)。