sn-xlm-roberta-base-snli-mnli-anli-xnli开源模型 - 免费支持多语言文本零样本和小样本文本分类

首页

Sn Xlm Roberta Base Snli Mnli Anli Xnli

由 symanto 开发

一个为零样本和小样本文本分类训练的双塔网络模型，支持多语言句子嵌入

文本嵌入

Transformers

支持多种语言#多语言句子嵌入 #零样本分类 #双塔网络

下载量 801

发布时间 : 3/2/2022

模型简介

该模型基于xlm-roberta-base架构，专门用于零样本和小样本文本分类任务。它能够将句子和段落映射到768维的密集向量空间，支持13种语言的句子相似度计算。

模型特点

多语言支持

支持13种语言的句子嵌入计算

零样本学习

无需特定领域训练数据即可进行分类任务

小样本适应

只需少量样本即可适应新任务

高效向量表示

将文本转换为768维密集向量，保留语义信息

模型能力

零样本文本分类

小样本学习

句子相似度计算

多语言文本处理

语义特征提取

使用案例

文本分类

多语言内容分类

对多语言内容进行自动分类，无需为每种语言单独训练模型

高准确率的零样本分类能力

信息检索

跨语言文档检索

在不同语言的文档中查找语义相似的内容

基于语义而非关键词的检索结果

语义分析

多语言语义相似度计算

计算不同语言句子之间的语义相似度

准确的跨语言语义匹配

🚀 孪生网络文本分类模型

这是一个经过训练的孪生网络模型，可用于零样本和少样本的文本分类任务。该模型以 [xlm - roberta - base](https://huggingface.co/xlm - roberta - base) 为基础模型，在 SNLI、MNLI、ANLI 和 XNLI 数据集上进行训练。此模型属于 sentence - transformers 模型，它能够将句子和段落映射到一个 768 维的密集向量空间。

🚀 快速开始

📦 安装指南

若要使用该模型，你需要安装 sentence - transformers：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence - Transformers）

安装好 sentence - transformers 后，使用该模型就变得非常简单：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

若未安装 sentence - transformers，你可以按以下方式使用该模型：首先，将输入数据传入 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

属性	详情
支持语言	ar、bg、de、el、en、es、fr、ru、th、tr、ur、vn、zh
数据集	SNLI、MNLI、ANLI、XNLI
模型类型	孪生网络模型，用于零样本和少样本的文本分类
管道标签	句子相似度
标签	零样本分类、句子转换器、特征提取、句子相似度、转换器