comprehend_it-multilingual-t5-base开源模型 - 支持近100种语言的双向文本分类

首页

Comprehend It Multilingual T5 Base

由 knowledgator 开发

基于mT5-base的多语言零样本分类模型，支持近100种语言的双向文本分类

文本分类

Transformers

支持多种语言开源协议:Apache-2.0 #多语言零样本分类 #双向语言理解 #跨语言标签匹配

下载量 420

发布时间 : 1/26/2024

模型简介

这是一个基于mT5-base的编码器-解码器模型，专门用于多语言自然语言推理和文本分类任务。模型能够理解文本和标签的上下文含义，支持文本和标签使用不同语言的零样本分类。

模型特点

多语言支持

支持近100种语言的零样本分类，包括中文、英语、西班牙语等主流语言

双向语言处理

文本和标签可以使用不同语言，模型仍能准确分类

上下文理解

通过编码器-解码器架构分别处理文本和标签，更好地理解上下文含义

高性能

在多个文本分类数据集上表现优于同类模型

模型能力

多语言文本分类

零样本学习

自然语言推理

跨语言分类

使用案例

内容分类

新闻分类

将新闻文章自动分类到预定义的类别中

在BBC新闻数据集上表现良好

情感分析

识别文本中的情感倾向

在情感分析数据集上F1分数达0.566

多语言应用

跨语言内容分类

使用英语标签分类其他语言的文本内容

如使用英语标签分类乌克兰语文本

多语言内容管理

为多语言网站或应用提供统一的分类系统

🚀 多语言理解模型 comprehend-it-multilang-base

comprehend-it-multilang-base 是一个基于编码器 - 解码器架构的模型，它基于 mT5-base 构建，在多语言自然语言推理数据集以及多个文本分类数据集上进行了训练。该模型能更好地理解文本和标签的上下文信息，因为文本和标签分别由模型的编码器和解码器部分进行编码。零样本分类器支持近 100 种语言，并且可以在不同语言的文本和标签之间进行分类。

🚀 快速开始

安装必要的库

由于模型架构的不同，我们不能直接使用 transformers 库中的 zero-shot-classification 管道。为此，我们开发了一个名为 LiqFit 的特殊库。如果你还没有安装 sentencepiece 库，为了使用 T5 分词器，你也需要安装它。

pip install liqfit sentencepiece

使用 LiqFit 管道加载模型

模型可以通过 zero-shot-classification 管道进行加载，示例代码如下：

from liqfit.pipeline import ZeroShotClassificationPipeline
from liqfit.models import T5ForZeroShotClassification
from transformers import T5Tokenizer

model = T5ForZeroShotClassification.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
tokenizer = T5Tokenizer.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
classifier = ZeroShotClassificationPipeline(model=model, tokenizer=tokenizer,
                                                      hypothesis_template = '{}', encoder_decoder = True)

使用管道进行文本分类

你可以使用这个管道将序列分类到你指定的任何类别名称中。

英文文本分类示例

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'one day I will see the world',
 'labels': ['travel', 'cooking', 'dancing'],
 'scores': [0.7350383996963501, 0.1484801471233368, 0.1164814680814743]}

乌克兰语文本分类示例

sequence_to_classify = "Одного дня я побачу цей світ."
candidate_labels = ['подорож', 'кулінарія', 'танці']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'Одного дня я побачу цей світ.',
 'labels': ['подорож', 'кулінарія', 'танці'],
 'scores': [0.6393420696258545, 0.2657214105129242, 0.09493650496006012]}

不同语言标签和文本的分类示例

sequence_to_classify = "Одного дня я побачу цей світ"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'Одного дня я побачу цей світ',
 'labels': ['travel', 'cooking', 'dancing'],
 'scores': [0.7676175236701965, 0.15484870970249176, 0.07753374427556992]}

✨ 主要特性

多语言支持：支持近 100 种语言，包括但不限于英语、中文、法语、德语等。
零样本分类：无需在特定数据集上进行微调，即可对新的文本进行分类。
跨语言分类：可以处理不同语言的文本和标签之间的分类任务。

📦 安装指南

pip install liqfit sentencepiece

💻 使用示例

基础用法

from liqfit.pipeline import ZeroShotClassificationPipeline
from liqfit.models import T5ForZeroShotClassification
from transformers import T5Tokenizer

model = T5ForZeroShotClassification.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
tokenizer = T5Tokenizer.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
classifier = ZeroShotClassificationPipeline(model=model, tokenizer=tokenizer,
                                                      hypothesis_template = '{}', encoder_decoder = True)

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
result = classifier(sequence_to_classify, candidate_labels, multi_label=False)
print(result)

📚 详细文档

基准测试

以下是该模型在几个文本分类数据集上的 F1 分数。所有测试的模型都没有在这些数据集上进行微调，而是在零样本设置下进行测试。

模型	IMDB	AG_NEWS	Emotions
Bart-large-mnli (407 M)	0.89	0.6887	0.3765
Deberta-base-v3 (184 M)	0.85	0.6455	0.5095
Comprehendo (184M)	0.90	0.7982	0.5660
Comprehendo-multi-lang (390M)	0.88	0.8372	-
SetFit BAAI/bge-small-en-v1.5 (33.4M)	0.86	0.5636	0.5754

未来阅读

查看我们的博客文章 - "零样本能力的新里程碑（不是生成式 AI）"，我们在其中强调了该模型的可能用例，以及为什么下一个词预测不是实现出色零样本能力的唯一途径。虽然大多数 AI 行业都专注于生成式 AI 和基于解码器的模型，但我们致力于开发基于编码器的模型。我们的目标是使这类模型达到与基于解码器的模型相同的泛化水平。编码器具有一些出色的特性，例如双向注意力，并且在效率和可控性方面，它们是许多信息提取任务的最佳选择。

📄 许可证

本项目采用 Apache-2.0 许可证。

📋 模型信息

属性	详情
模型类型	基于 mT5-base 的编码器 - 解码器模型
训练数据集	multi_nli、xnli、dbpedia_14、SetFit/bbc-news、squad_v2、race、knowledgator/events_classification_biotech、facebook/anli、SetFit/qnli
评估指标	准确率、F1 分数
任务类型	零样本分类
标签	分类、信息提取、零样本