roberta-base-japanese-jsnli开源文本分类模型 - 免费部署助力日语自然语言推理

首页

Roberta Base Japanese Jsnli

由 Formzu 开发

基于日语RoBERTa模型在JSNLI数据集上微调的文本分类模型，擅长自然语言推理任务

文本分类

Transformers

支持多种语言#日语零样本分类 #高准确率NLI #Juman++分词适配

下载量 31

发布时间 : 10/14/2022

模型简介

该模型是基于nlp-waseda/roberta-base-japanese在JSNLI数据集上微调的版本，主要用于日语文本分类和自然语言推理任务。

模型特点

日语专用

专门针对日语文本处理优化，需要配合Juman++分词器使用

高准确率

在JSNLI开发集上达到93.28%的准确率

零样本分类能力

支持零样本分类任务，无需额外训练即可应用于新类别

模型能力

日语文本分类

自然语言推理

零样本分类

使用案例

文本分析

情感分析

分析日语文本的情感倾向

主题分类

对日语文本进行主题分类

智能对话

意图识别

识别用户输入的对话意图

🚀 roberta-base-japanese-jsnli

该模型是 nlp-waseda/roberta-base-japanese 在 JSNLI 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.2039
准确率：0.9328

🚀 快速开始

本模型可用于文本分类任务，在自然语言推理任务上表现良好。使用前需提前了解输入文本的预处理要求。

✨ 主要特性

多标签分类：支持零样本分类，可对文本进行多标签分类。
自然语言推理：在自然语言推理任务中表现出色。
微调模型：基于预训练的日语 RoBERTa 模型进行微调。

📦 安装指南

使用该模型前，你需要安装所需的库。可以使用以下命令进行安装：

pip install transformers pyknp datasets tokenizers torch

💻 使用示例

基础用法

输入文本应提前使用 Juman++ 进行分词处理。以下是一个简单的零样本分类管道示例：

from transformers import pipeline
from pyknp import Juman

juman = Juman()

classifier = pipeline("zero-shot-classification", model="Formzu/roberta-base-japanese-jsnli")

sequence_to_classify = " ".join([tok.midasi for tok in juman.analysis("いつか世界を見る。").mrph_list()])

candidate_labels = ['旅行', '料理', '踊り']
out = classifier(sequence_to_classify, candidate_labels, hypothesis_template="この 例 は {} です 。")
print(out)
#{'sequence': 'いつか 世界 を 見る 。', 
# 'labels': ['旅行', '踊り', '料理'], 
# 'scores': [0.8998081684112549, 0.06059670448303223, 0.03959512338042259]}

高级用法

以下是一个自然语言推理用例：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from pyknp import Juman

juman = Juman()

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

model_name = "Formzu/roberta-base-japanese-jsnli"
model = AutoModelForSequenceClassification.from_pretrained(model_name).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)

premise = " ".join([tok.midasi for tok in juman.analysis("いつか世界を見る。").mrph_list()])
label = '旅行'
hypothesis = f'この 例 は {label} です 。'

input = tokenizer.encode(premise, hypothesis, return_tensors='pt').to(device)
with torch.no_grad():
    logits = model(input)["logits"][0]
    probs = logits.softmax(dim=-1)
    print(probs.cpu().numpy(), logits.cpu().numpy())
#[0.82168734 0.1744363  0.00387629] [ 2.3362164   0.78641605 -3.0202653 ]

📚 详细文档

训练过程

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	2e-05
训练批次大小	32
评估批次大小	32
随机种子	42
优化器	Adam (betas=(0.9, 0.999), epsilon=1e-08)
学习率调度器类型	线性
训练轮数	3.0