language:
- es
library_name: pysentimiento
pipeline_tag: text-classification
tags:
- twitter
- sentiment-analysis
西班牙语情感分析
robertuito-sentiment-analysis
代码库:https://github.com/pysentimiento/pysentimiento/
该模型基于TASS 2020语料库(约5千条推文)训练,覆盖多种西班牙语方言。基础模型为RoBERTuito——一个在西班牙语推文上训练的RoBERTa模型。
使用POS
(积极)、NEG
(消极)、NEU
(中性)三类标签。
使用方法
配合pysentimiento直接使用:
from pysentimiento import create_analyzer
analyzer = create_analyzer(task="sentiment", lang="es")
analyzer.predict("梅西真是伟大的球员")
性能表现
在pysentimiento
中评估四项任务的宏观F1分数:
模型 |
情感识别 |
仇恨言论检测 |
反讽识别 |
情感分析 |
robertuito |
0.560 ± 0.010 |
0.759 ± 0.007 |
0.739 ± 0.005 |
0.705 ± 0.003 |
roberta |
0.527 ± 0.015 |
0.741 ± 0.012 |
0.721 ± 0.008 |
0.670 ± 0.006 |
bertin |
0.524 ± 0.007 |
0.738 ± 0.007 |
0.713 ± 0.012 |
0.666 ± 0.005 |
beto_uncased |
0.532 ± 0.012 |
0.727 ± 0.016 |
0.701 ± 0.007 |
0.651 ± 0.006 |
beto_cased |
0.516 ± 0.012 |
0.724 ± 0.012 |
0.705 ± 0.009 |
0.662 ± 0.005 |
mbert_uncased |
0.493 ± 0.010 |
0.718 ± 0.011 |
0.681 ± 0.010 |
0.617 ± 0.003 |
biGRU |
0.264 ± 0.007 |
0.592 ± 0.018 |
0.631 ± 0.011 |
0.585 ± 0.011 |
注:仇恨言论检测结果基于Semeval 2019任务5的子任务B
引用文献
若在研究中使用了本模型,请引用pysentimiento、RoBERTuito及TASS的相关论文:
@article{perez2021pysentimiento,
title={pysentimiento: 面向观点挖掘与社交NLP任务的Python工具包},
author={P{\'e}rez, Juan Manuel and Rajngewerc, Mariela and Giudici, Juan Carlos and Furman, Dami{\'a}n A and Luque, Franco and Alemany, Laura Alonso and Mart{\'\i}nez, Mar{\'\i}a Vanina},
journal={arXiv预印本 arXiv:2106.09462},
year={2021}
}
@inproceedings{perez-etal-2022-robertuito,
title = "{R}o{BERT}uito:面向西班牙语社交媒体文本的预训练语言模型",
author = "P{\'e}rez, Juan Manuel and
Furman, Dami{\'a}n Ariel and
Alonso Alemany, Laura and
Luque, Franco M.",
booktitle = "第十三届语言资源与评估会议论文集",
month = 6月,
year = "2022",
address = "法国马赛",
publisher = "欧洲语言资源协会",
url = "https://aclanthology.org/2022.lrec-1.785",
pages = "7235--7243",
abstract = "自BERT问世以来,Transformer语言模型与迁移学习已成为自然语言处理任务的新范式。近期研究开始针对特定领域(如科学论文、医疗文档、用户生成内容等)定制预训练模型。实践证明,这类领域专用模型能显著提升多数任务的性能;然而对于非英语语言,此类模型仍较为稀缺。本研究提出的RoBERTuito是一个面向西班牙语用户生成文本的预训练语言模型,基于超5亿条推文训练。在涉及用户生成文本的标准任务测试中,RoBERTuito性能优于其他西班牙语预训练模型。此外,该模型具备跨语言能力:在LinCE评测的英西混合语任务中表现最佳,在英语推特任务中与单语模型相比也具竞争力。为促进后续研究,我们将RoBERTuito开源发布于HuggingFace模型库,并公开其预训练数据集。",
}
@inproceedings{garcia2020overview,
title={TASS 2020综述:情感检测新突破},
author={Garc{\'\i}a-Vega, Manuel and D{\'\i}az-Galiano, MC and Garc{\'\i}a-Cumbreras, MA and Del Arco, FMP and Montejo-R{\'a}ez, A and Jim{\'e}nez-Zafra, SM and Mart{\'\i}nez C{\'a}mara, E and Aguilar, CA and Cabezudo, MAS and Chiruzzo, L 等},
booktitle={第36届西班牙自然语言处理协会会议联合举办的伊比利亚语言评测论坛论文集},
location="西班牙马拉加",
pages="163--170",
year="2020"
}