基础模型: distilbert/distilbert-base-multilingual-cased
支持语言:
- 英语
- 中文
- 西班牙语
- 印地语
- 阿拉伯语
- 孟加拉语
- 葡萄牙语
- 俄语
- 日语
- 德语
- 马来语
- 泰卢固语
- 越南语
- 韩语
- 法语
- 土耳其语
- 意大利语
- 波兰语
- 乌克兰语
- 他加禄语
- 荷兰语
- 瑞士德语
库名称: transformers
许可证: cc-by-nc-4.0
任务标签: 文本分类
标签:
- 文本分类
- 情感分析
- 情感识别
- 合成数据
- 多类别
- 社交媒体分析
- 客户反馈
- 产品评论
- 品牌监测
- 多语言
- 🇪🇺
- 地区:欧盟
🚀 基于DistilBERT的多语言情感分类模型

最新动态!
- 2024年12月: 我们兴奋地推出多语言情感模型!现在您可以分析多种语言的情感表达,提升全球覆盖能力。
模型详情
模型名称:
tabularisai/multilingual-sentiment-analysis
基础模型:
distilbert/distilbert-base-multilingual-cased
任务:
文本分类(情感分析)
支持语言:
英语及中文、西班牙语、印地语、阿拉伯语、孟加拉语、葡萄牙语、俄语、日语、德语、马来语、泰卢固语、越南语、韩语、法语、土耳其语、意大利语、波兰语、乌克兰语、他加禄语、荷兰语、瑞士德语
分类数量:
5类(非常负面、负面、中性、正面、非常正面)
应用场景:
- 社交媒体分析
- 客户反馈分析
- 产品评论分类
- 品牌监测
- 市场调研
- 客户服务优化
- 竞争情报分析
模型描述
本模型是基于distilbert/distilbert-base-multilingual-cased
微调的多语言情感分析模型。通过整合多源合成数据,实现了跨语言和文化背景的稳健表现。
训练数据
完全采用先进LLM生成的合成多语言数据进行训练,确保覆盖多种语言的丰富情感表达。
训练过程
- 微调3.5个周期
- 在验证集上达到约0.93的train_acc_off_by_one准确率
适用场景
理想用于:
- 多语言社交媒体监控
- 国际客户反馈分析
- 全球产品评论情感分类
- 跨国品牌情感追踪
使用方法
使用pipeline仅需4行代码:
from transformers import pipeline
pipe = pipeline("text-classification", model="tabularisai/multilingual-sentiment-analysis")
sentence = "我非常喜欢这个产品!它太棒了,完美运行。"
result = pipe(sentence)
print(result)
以下是无需pipeline的Python使用示例:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "tabularisai/multilingual-sentiment-analysis"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
def predict_sentiment(texts):
inputs = tokenizer(texts, return_tensors="pt", truncation=True, padding=True, max_length=512)
with torch.no_grad():
outputs = model(**inputs)
probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
sentiment_map = {0: "非常负面", 1: "负面", 2: "中性", 3: "正面", 4: "非常正面"}
return [sentiment_map[p] for p in torch.argmax(probabilities, dim=-1).tolist()]
texts = [
"我超级喜欢这个应用的新设计!", "客户服务令人失望。", "天气还行,没什么特别的。",
"这家餐厅的菜味道非常棒!", "我对他的回答很失望。", "今天天气一般。",
"我超爱这个装饰效果!", "服务又差又慢。", "这本书普普通通。",
"这家酒店的服务太出色了!", "我不喜欢这家餐厅的食物。", "旅程很普通。",
"我超爱这场演出!", "服务太糟糕了。", "这本书很一般。",
"这个地方太神奇了!", "这次体验很糟糕。", "电影还行吧。",
"这里的环境太棒了!", "服务质量很差。", "食物一般般。",
"这本书太棒了!我学到了很多新东西。",
"不喜欢这个产品,收到时已经坏了。", "电影还行,没什么特别的。",
"这家餐厅的料理真的很好吃!", "对这家酒店的服务很失望。", "天气马马虎虎。",
"我对这个新设备爱不释手!", "这项服务只给我留下了失望。", "会议很普通,没什么特别的。",
"我超爱这家餐厅,太棒了!", "等待时间太长让人沮丧。", "电影一般,没什么亮点。",
"我超爱这家酒店的景观!", "产品完全是个失望。", "音乐会还行,中规中矩。",
"我超爱这个地方,太棒了!", "客服太差了。", "晚餐很普通。",
"我超爱这家餐厅,食物很棒!", "客户服务令人失望。", "天气还行,没什么特别的。",
"这个地方太美了,非常舒适!", "他们的服务不好。", "演出还行,没什么特别的。",
"我对新买的商品非常满意!", "客服真的很差。", "演示会还行,没什么特别的。",
"我喜欢这里的食物,很好吃!", "这次体验很失望。", "今天天气普普通通。",
"这家店的蛋糕真的很好吃!", "服务太差了。", "天气就那样吧。",
"我觉得这家餐厅的服务超棒!", "不喜欢这顿饭。", "今天天气马马虎虎。"
]
for text, sentiment in zip(texts, predict_sentiment(texts)):
print(f"文本: {text}\n情感: {sentiment}\n")
伦理考量
虽然合成数据减少了偏见,但仍建议在实际场景中进行验证。
引用
待补充
联系方式
如需咨询、数据、私有API或更优模型,请联系info@tabularis.ai
tabularis.ai