语言:
标签:
西班牙语/英语词性标注模型
robertuito-pos
代码库: https://github.com/pysentimiento/pysentimiento/
本模型基于LinCE NER语料库的西班牙语/英语混合数据集训练,该数据集是代码转换任务的基准。基础模型采用RoBERTuito——一个针对西班牙语推文训练的RoBERTa模型。
使用说明
建议通过pysentimiento
库直接调用本模型,由于分词问题当前无法通过标准流程正常使用
from pysentimiento import create_analyzer
pos_analyzer = create_analyzer("pos", lang="es")
pos_analyzer.predict("Quiero que esto funcione correctamente! @perezjotaeme")
>[{'type': 'PROPN', 'text': 'Quiero', 'start': 0, 'end': 6},
> {'type': 'SCONJ', 'text': 'que', 'start': 7, 'end': 10},
> {'type': 'PRON', 'text': 'esto', 'start': 11, 'end': 15},
> {'type': 'VERB', 'text': 'funcione', 'start': 16, 'end': 24},
> {'type': 'ADV', 'text': 'correctamente', 'start': 25, 'end': 38},
> {'type': 'PUNCT', 'text': '!', 'start': 38, 'end': 39},
> {'type': 'NOUN', 'text': '@perezjotaeme', 'start': 40, 'end': 53}]
性能表现
数据来自LinCE排行榜
模型 |
情感分析 |
命名实体识别 |
词性标注 |
RoBERTuito |
60.6 |
68.5 |
97.2 |
XLM Large |
-- |
69.5 |
97.2 |
XLM Base |
-- |
64.9 |
97.0 |
C2S mBERT |
59.1 |
64.6 |
96.9 |
mBERT |
56.4 |
64.0 |
97.1 |
BERT |
58.4 |
61.1 |
96.9 |
BETO |
56.5 |
-- |
-- |
引用文献
若在研究中使用了本模型,请引用pysentimiento、RoBERTuito和LinCE的相关论文:
@misc{perez2021pysentimiento,
title={pysentimiento: 面向情感分析与社交NLP任务的Python工具包},
author={Juan Manuel Pérez and Juan Carlos Giudici and Franco Luque},
year={2021},
eprint={2106.09462},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{ortega2019overview,
title={西班牙语变体讽刺检测任务综述},
author={Ortega-Bueno, Reynier and Rangel, Francisco and Hernández Farías, D and Rosso, Paolo and Montes-y-Gómez, Manuel and Medina Pagola, José E},
booktitle={第34届西班牙自然语言处理学会会议论文集},
volume={2421},
pages={229--256},
year={2019}
}
@inproceedings{aguilar2020lince,
title={LinCE: 语言代码转换评估的集中化基准},
author={Aguilar, Gustavo and Kar, Sudipta and Solorio, Thamar},
booktitle={第12届语言资源与评估会议论文集},
pages={1803--1813},
year={2020}
}