Multilingual Sentiment Analysis
M
Multilingual Sentiment Analysis
由 tabularisai 开发
一个基于DistilBERT微调的多语言情感分析模型,支持21种语言,适用于社交媒体、客户反馈等多场景分析。
下载量 162.07k
发布时间 : 12/7/2024
模型简介
该模型专门用于文本情感分类,能够识别'非常负面'到'非常正面'五种情感强度,适用于多语言环境下的情感分析任务。
模型特点
多语言支持
支持21种语言的情感分析,覆盖全球主要语言区域
高效架构
基于DistilBERT的轻量级架构,在保持性能的同时减少计算资源需求
五级情感分类
能够区分'非常负面'到'非常正面'五种情感强度,提供更细致的分析
合成数据训练
使用LLM生成的合成多语言数据进行训练,确保覆盖多种语言的丰富情感表达
模型能力
文本分类
情感分析
多语言处理
社交媒体内容分析
客户反馈分类
使用案例
社交媒体分析
多语言社交媒体监控
分析不同语言社交媒体上的品牌提及情感倾向
识别全球范围内的品牌情感趋势
客户反馈分析
国际客户反馈分类
自动分类来自不同语言客户的反馈情感
提高客户服务响应效率
市场研究
全球产品评论分析
分析不同地区用户对产品的评价情感
识别产品在不同市场的接受度
🚀 distilbert-based多语言情感分类模型
本模型是一个基于distilbert的多语言情感分类模型,可支持多种语言的情感分析,广泛应用于社交媒体监测、客户反馈分析等多个领域,能有效提升全球业务的情感洞察能力。
🚀 快速开始
使用管道(pipelines),仅需4行代码:
from transformers import pipeline
# Load the classification pipeline with the specified model
pipe = pipeline("text-classification", model="tabularisai/multilingual-sentiment-analysis")
# Classify a new sentence
sentence = "I love this product! It's amazing and works perfectly."
result = pipe(sentence)
# Print the result
print(result)
以下是一个不使用管道的Python示例,展示如何使用多语言情感模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "tabularisai/multilingual-sentiment-analysis"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
def predict_sentiment(texts):
inputs = tokenizer(texts, return_tensors="pt", truncation=True, padding=True, max_length=512)
with torch.no_grad():
outputs = model(**inputs)
probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
sentiment_map = {0: "Very Negative", 1: "Negative", 2: "Neutral", 3: "Positive", 4: "Very Positive"}
return [sentiment_map[p] for p in torch.argmax(probabilities, dim=-1).tolist()]
texts = [
# English
"I absolutely love the new design of this app!", "The customer service was disappointing.", "The weather is fine, nothing special.",
# Chinese
"这家餐厅的菜味道非常棒!", "我对他的回答很失望。", "天气今天一般。",
# Spanish
"¡Me encanta cómo quedó la decoración!", "El servicio fue terrible y muy lento.", "El libro estuvo más o menos.",
# Arabic
"الخدمة في هذا الفندق رائعة جدًا!", "لم يعجبني الطعام في هذا المطعم.", "كانت الرحلة عادية。",
# Ukrainian
"Мені дуже сподобалася ця вистава!", "Обслуговування було жахливим.", "Книга була посередньою。",
# Hindi
"यह जगह सच में अद्भुत है!", "यह अनुभव बहुत खराब था।", "फिल्म ठीक-ठाक थी।",
# Bengali
"এখানকার পরিবেশ অসাধারণ!", "সেবার মান একেবারেই খারাপ।", "খাবারটা মোটামুটি ছিল।",
# Portuguese
"Este livro é fantástico! Eu aprendi muitas coisas novas e inspiradoras.",
"Não gostei do produto, veio quebrado.", "O filme foi ok, nada de especial.",
# Japanese
"このレストランの料理は本当に美味しいです!", "このホテルのサービスはがっかりしました。", "天気はまあまあです。",
# Russian
"Я в восторге от этого нового гаджета!", "Этот сервис оставил у меня только разочарование.", "Встреча была обычной, ничего особенного.",
# French
"J'adore ce restaurant, c'est excellent !", "L'attente était trop longue et frustrante.", "Le film était moyen, sans plus.",
# Turkish
"Bu otelin manzarasına bayıldım!", "Ürün tam bir hayal kırıklığıydı.", "Konser fena değildi, ortalamaydı.",
# Italian
"Adoro questo posto, è fantastico!", "Il servizio clienti è stato pessimo.", "La cena era nella media.",
# Polish
"Uwielbiam tę restaurację, jedzenie jest świetne!", "Obsługa klienta była rozczarowująca.", "Pogoda jest w porządku, nic szczególnego.",
# Tagalog
"Ang ganda ng lugar na ito, sobrang aliwalas!", "Hindi maganda ang serbisyo nila dito.", "Maayos lang ang palabas, walang espesyal.",
# Dutch
"Ik ben echt blij met mijn nieuwe aankoop!", "De klantenservice was echt slecht.", "De presentatie was gewoon oké, niet bijzonder.",
# Malay
"Saya suka makanan di sini, sangat sedap!", "Pengalaman ini sangat mengecewakan.", "Hari ini cuacanya biasa sahaja.",
# Korean
"이 가게의 케이크는 정말 맛있어요!", "서비스가 너무 별로였어요.", "날씨가 그저 그렇네요.",
# Swiss German
"Ich find dä Service i de Beiz mega guet!", "Däs Esä het mir nöd gfalle.", "D Wätter hüt isch so naja."
]
for text, sentiment in zip(texts, predict_sentiment(texts)):
print(f"Text: {text}\nSentiment: {sentiment}\n")
✨ 主要特性
- 多语言支持:支持英语、中文、西班牙语、印地语等多种语言。
- 多场景应用:可用于社交媒体分析、客户反馈分析、产品评论分类、品牌监测等多个领域。
- 合成数据训练:使用先进大语言模型生成的合成多语言数据进行训练,确保在不同语言和文化背景下都有良好表现。
📦 安装指南
文档未提及安装步骤,暂不提供。
📚 详细文档
模型详情
模型名称
:tabularisai/multilingual-sentiment-analysis基础模型
:distilbert/distilbert-base-multilingual-cased任务
:文本分类(情感分析)支持语言
:支持英语、中文(中文)、西班牙语(Español)、印地语(हिन्दी)、阿拉伯语(العربية)、孟加拉语(বাংলা)、葡萄牙语(Português)、俄语(Русский)、日语(日本語)、德语(Deutsch)、马来语(Bahasa Melayu)、泰卢固语(తెలుగు)、越南语(Tiếng Việt)、韩语(한국어)、法语(Français)、土耳其语(Türkçe)、意大利语(Italiano)、波兰语(Polski)、乌克兰语(Українська)、他加禄语、荷兰语(Nederlands)、瑞士德语(Schweizerdeutsch)。类别数量
:5(非常负面、负面、中性、正面、非常正面)应用场景
:- 社交媒体分析
- 客户反馈分析
- 产品评论分类
- 品牌监测
- 市场调研
- 客户服务优化
- 竞争情报
模型描述
该模型是distilbert/distilbert-base-multilingual-cased
的微调版本,用于多语言情感分析。它利用来自多个来源的合成数据,在不同语言和文化背景下实现了稳健的性能。
训练数据
仅使用先进大语言模型生成的合成多语言数据进行训练,确保广泛覆盖各种语言的情感表达。
训练过程
- 微调3.5个周期。
- 在验证数据集上的train_acc_off_by_one约为0.93。
预期用途
适用于:
- 多语言社交媒体监测
- 国际客户反馈分析
- 全球产品评论情感分类
- 全球品牌情感跟踪
🔧 技术细节
合成数据可减少偏差,但建议在实际场景中进行验证。
📄 许可证
本模型使用的许可证为cc-by-nc-4.0。
引用信息
Will be included.
联系我们
如有咨询、数据、私有API或更优模型等需求,请联系info@tabularis.ai。
tabularis.ai
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类 英语
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers 支持多种语言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
该模型通过动态生成数据集来改进在线仇恨检测,专注于从最差案例中学习以提高检测效果。
文本分类
Transformers 英语

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基于bert-base-multilingual-uncased微调的多语言情感分析模型,支持6种语言的商品评论情感分析
文本分类 支持多种语言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基于DistilRoBERTa-base微调的英文文本情感分类模型,可预测埃克曼六种基本情绪及中性类别。
文本分类
Transformers 英语

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基于RoBERTuito的西班牙语推文情感分析模型,支持POS(积极)/NEG(消极)/NEU(中性)三类情感分类
文本分类 西班牙语
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基于金融通讯文本预训练的BERT模型,专注于金融自然语言处理领域。finbert-tone是其微调版本,用于金融情感分析任务。
文本分类
Transformers 英语

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基于RoBERTa-base的多标签情感分类模型,在go_emotions数据集上训练,支持28种情感标签识别。
文本分类
Transformers 英语

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一个基于XLM-T模型微调的多语言情感分析模型,支持19种语言,专门针对社交媒体文本的情感预测。
文本分类
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基于MultiNLI、Fever-NLI和ANLI数据集训练的DeBERTa-v3模型,擅长零样本分类和自然语言推理任务
文本分类
Transformers 英语

D
MoritzLaurer
613.93k
204
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文