HeBERT:面向极性分析与情感识别的预训练BERT模型
HeBERT是基于希伯来语的预训练语言模型,采用谷歌BERT架构及BERT-Base配置(Devlin等, 2018)。
该模型基于三组数据集训练:
- 希伯来语版OSCAR(Ortiz, 2019):约9.8GB数据,包含10亿单词及2080万句子
- 希伯来语维基百科快照:约650MB数据,含6300万单词与380万句子
- 情感UGC数据(专为本研究收集,详见下文)
模型在下游任务中进行了情感识别与情绪分析的性能评估。
情感UGC数据说明
用户生成内容(UGC)来自2020年1月至8月三大新闻网站的评论区,总数据量约150MB,含700万单词及35万句子。
4000条句子经众包标注(每句3-10名标注者),标注维度包括8种情绪(愤怒、厌恶、期待、恐惧、快乐、悲伤、惊讶、信任)及整体情感极性。
采用Krippendorff's alpha系数(Krippendorff, 1970)验证标注一致性,保留alpha值>0.7的句子。研究发现,快乐、信任、厌恶等情绪标注一致性较高,而期待与惊讶等复杂情绪的标注分歧较大。
性能表现
情感分析
|
精确率 |
召回率 |
F1值 |
中性 |
0.83 |
0.56 |
0.67 |
积极 |
0.96 |
0.92 |
0.94 |
消极 |
0.97 |
0.99 |
0.98 |
准确率 |
|
|
0.97 |
宏平均 |
0.92 |
0.82 |
0.86 |
加权平均 |
0.96 |
0.97 |
0.96 |
使用方法
掩码语言模型(可微调至下游任务)
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT")
model = AutoModel.from_pretrained("avichr/heBERT")
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="avichr/heBERT",
tokenizer="avichr/heBERT"
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")
情感分类模型(仅极性分析)
from transformers import AutoTokenizer, AutoModel, pipeline
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis")
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")
sentiment_analysis = pipeline(
"sentiment-analysis",
model="avichr/heBERT_sentiment_analysis",
tokenizer="avichr/heBERT_sentiment_analysis",
return_all_scores=True
)
>>> sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')
[[{'label': 'natural', 'score': 0.9978172183036804},
{'label': 'positive', 'score': 0.0014792329166084528},
{'label': 'negative', 'score': 0.0007035882445052266}]]
模型已同步部署至AWS,详见AWS代码库
持续更新
我们仍在优化模型,本页将随进展同步更新。
当前仅开放情感极性分析功能,情绪识别模块将后续发布。
项目代码库:https://github.com/avichaychriqui/HeBERT
引用格式
Chriqui, A., & Yahav, I. (2021). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. arXiv preprint arXiv:2102.01909.
@article{chriqui2021hebert,
title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
author={Chriqui, Avihay and Yahav, Inbal},
journal={arXiv preprint arXiv:2102.01909},
year={2021}
}