开源roberta-large-ernie2-skep-en模型 - 精准助力情感分析任务

首页

Roberta Large Ernie2 Skep En

由 Yaxin 开发

SKEP（情感知识增强预训练模型）由百度于2020年提出，专为情感分析任务设计。该模型通过情感掩码技术和三项情感预训练目标，融合了多类型知识进行预训练。

大型语言模型

Transformers

英语#情感分析 #知识增强预训练 #多任务学习

下载量 29

发布时间 : 4/4/2022

模型简介

SKEP-Roberta是一个基于Roberta架构的预训练模型，专为情感分析任务优化，通过情感知识增强技术提升性能。

模型特点

情感知识增强

通过情感掩码技术和三项情感预训练目标，融合多类型知识进行预训练。

基于Roberta架构

采用Roberta-large架构，具有24层、1024隐藏层维度和24个注意力头。

PyTorch转换

由官方PaddlePaddle版SKEP模型转换而来，并通过实验验证了转换准确性。

模型能力

情感分析

文本分类

掩码语言建模

使用案例

情感分析

产品评论情感分析

分析用户对产品的评论情感倾向（正面/负面）。

社交媒体情绪检测

识别社交媒体文本中的情绪表达。

教育应用

学生反馈分析

分析学生对课程或教学的反馈情感。

🚀 SKEP-Roberta

SKEP-Roberta 是一个用于情感分析的预训练模型，它结合了情感知识增强预训练技术，能有效提升情感分析的效果。

🚀 快速开始

安装依赖

你可以使用以下命令安装所需的库：

pip install transformers torch

代码示例

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Yaxin/roberta-large-ernie2-skep-en")
model = AutoModel.from_pretrained("Yaxin/roberta-large-ernie2-skep-en")

高级用法

#!/usr/bin/env python
#encoding: utf-8
import torch
from transformers import RobertaTokenizer, RobertaForMaskedLM

tokenizer = RobertaTokenizer.from_pretrained('Yaxin/roberta-large-ernie2-skep-en')

input_tx = "<s> He like play with student, so he became a <mask> after graduation </s>"
# input_tx = "<s> He is a <mask> and likes to get along with his students </s>"

tokenized_text = tokenizer.tokenize(input_tx)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)

tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([[0] * len(tokenized_text)])

model = RobertaForMaskedLM.from_pretrained('Yaxin/roberta-large-ernie2-skep-en')
model.eval()

with torch.no_grad():
    outputs = model(tokens_tensor, token_type_ids=segments_tensors)
    predictions = outputs[0]

predicted_index = [torch.argmax(predictions[0, i]).item() for i in range(0, (len(tokenized_text) - 1))]
predicted_token = [tokenizer.convert_ids_to_tokens([predicted_index[x]])[0] for x in
                   range(1, (len(tokenized_text) - 1))]

print('Predicted token is:', predicted_token)

✨ 主要特性

SKEP（SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis）由百度在 2020 年提出，它提出了用于情感分析的情感知识增强预训练方法。通过设计情感掩码和三个情感预训练目标，将各种类型的知识融入到预训练模型中。

更多细节请参考：https://aclanthology.org/2020.acl-main.374.pdf

📦 模型信息

属性	详情
模型名称	skep-roberta-large
语言	英文
模型结构	层数：24，隐藏层维度：1024，注意力头数：24

此发布的 PyTorch 模型是从官方发布的 PaddlePaddle SKEP 模型转换而来，并进行了一系列实验以验证转换的准确性。

官方 PaddlePaddle SKEP 仓库：
1. https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/transformers/skep
2. https://github.com/baidu/Senta
PyTorch 转换仓库：尚未发布

📄 引用

如果你使用了该模型，请引用以下论文：

@article{tian2020skep,
  title={SKEP: Sentiment knowledge enhanced pre-training for sentiment analysis},
  author={Tian, Hao and Gao, Can and Xiao, Xinyan and Liu, Hao and He, Bolei and Wu, Hua and Wang, Haifeng and Wu, Feng},
  journal={arXiv preprint arXiv:2005.05635},
  year={2020}
}

参考链接：https://github.com/nghuyong/ERNIE-Pytorch