language: it
thumbnail: https://neuraly.ai/static/assets/images/huggingface/thumbnail.png
tags:
- 情感分析
- 意大利语
license: mit
widget:
- text: Huggingface 是一个超棒的团队!
🤗 + neuraly - 意大利语 BERT 情感分析模型
模型描述
该模型用于对意大利语句子进行情感分析。它基于 bert-base-italian-cased 进行微调,并在意大利语推文数据集上训练,最终在该数据集上达到了82%的准确率。
使用范围与限制
使用方法
import torch
from torch import nn
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("neuraly/bert-base-italian-cased-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("neuraly/bert-base-italian-cased-sentiment")
sentence = 'Huggingface 是一个超棒的团队!'
input_ids = tokenizer.encode(sentence, add_special_tokens=True)
tensor = torch.tensor(input_ids).long()
tensor = tensor.unsqueeze(0)
logits, = model(tensor)
logits = logits.squeeze(0)
proba = nn.functional.softmax(logits, dim=0)
negative, neutral, positive = proba
局限性及偏差
该模型可能存在的一个缺点(或偏差)源于其训练数据为推文数据集,带有此类数据固有的局限性。虽然数据集主题主要与足球运动员和球队相关,但模型在其他话题上也表现出色。
训练数据
我们结合了来自 Sentipolc EVALITA 2016 的两个推文数据集进行训练。整体数据集包含4.5万条预处理推文。
模型权重基于预训练的 bert-base-italian-cased 实例。特别感谢该团队的开创性工作!
训练流程
预处理
我们尽可能保留原始信息,因为BERT能出色捕捉复杂文本序列的语义。仅移除了每条推文中的**@提及**、网址和邮箱地址,其余内容基本保留。
硬件配置
- GPU: 英伟达GTX1080ti
- CPU: AMD锐龙7 3700x 8核16线程
- 内存: 64GB DDR4
超参数
- 优化器: AdamW,学习率2e-5,epsilon值1e-8
- 最大训练轮次: 5
- 批次大小: 32
- 早停机制: 启用,耐心值=1
模型在第3轮训练后触发早停机制。
评估结果
模型在测试集(占全数据集20%)上的整体准确率达到82%。
关于我们
Neuraly 是一家充满活力的新兴初创公司,致力于通过最先进的机器学习和数据科学技术开发AI驱动解决方案。访问我们的官网了解更多信息。
致谢
感谢 Hugging Face 团队的慷慨支持,使我们能够从他们的S3存储下载模型,并通过其推理API进行实时测试🤗。