language:
- fa
library_name: transformers
widget:
- text: "我苦涩的话语令[MASK]潸然泪下"
example_title: "诗歌示例1"
- text: "纵使身死也不移视线,因你永驻我心间[MASK]"
example_title: "诗歌示例2"
- text: "每时内心如沸[MASK],却不知世人外相"
example_title: "诗歌示例3"
- text: "我是那焚尽安逸的浪子门徒,乞丐皮囊下藏着[MASK]真知"
example_title: "诗歌示例4"
- text: "这[MASK]只是个开始。"
example_title: "口语示例1"
- text: "受够了![MASK]这也叫干活?!"
example_title: "口语示例2"
- text: "估计赶不上了,不如[MASK]选这个吧"
example_title: "口语示例3"
- text: "熬到天亮一直在准备[MASK]"
example_title: "口语示例4"
- text: "没有[MASK]的人生索然无味"
example_title: "书面语示例1"
- text: "该公司初判获准运营,但经复审后其许可证被[MASK]"
example_title: "书面语示例2"
FaBERT:基于波斯语博客的BERT预训练模型
模型详情
FaBERT是基于多样化HmBlogs语料库训练的波斯语BERT基础模型,涵盖波斯语口语及书面语文本。作为自然语言处理任务的解决方案,该模型在保持紧凑体积的同时,经多项自然语言理解(NLU)任务验证表现卓越。现已在Hugging Face平台发布,可轻松集成至各类项目。FaBERT以简洁架构应对复杂NLP任务,提供显著性能提升。
核心特性
- 预训练数据:波斯语博客构成的HmBlogs语料库(超50GB文本)
- 在下游NLP任务中表现优异
- BERT架构,1.24亿参数规模
相关资源
使用指南
加载MLM模型
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("sbunlp/fabert")
model = AutoModelForMaskedLM.from_pretrained("sbunlp/fabert")
下游任务
与原始英文BERT类似,FaBERT可微调适配多种下游任务(https://huggingface.co/docs/transformers/en/training)。波斯语数据集应用示例详见GitHub仓库。
务必使用默认快速分词器
训练参数
FaBERT采用掩码语言建模(WWM)目标预训练,验证集困惑度为7.76。
超参数 |
设定值 |
批大小 |
32 |
优化器 |
Adam |
学习率 |
6e-5 |
权重衰减 |
0.01 |
总训练步数 |
1800万 |
预热步数 |
180万 |
精度格式 |
TF32 |
性能评估
关键评估结果如下:
情感分析
任务 |
FaBERT |
ParsBERT |
XLM-R |
MirasOpinion |
87.51 |
86.73 |
84.92 |
MirasIrony |
74.82 |
71.08 |
75.51 |
DeepSentiPers |
79.85 |
74.94 |
79.00 |
命名实体识别
任务 |
FaBERT |
ParsBERT |
XLM-R |
PEYMA |
91.39 |
91.24 |
90.91 |
ParsTwiner |
82.22 |
81.13 |
79.50 |
MultiCoNER v2 |
57.92 |
58.09 |
51.47 |
问答系统
任务 |
FaBERT |
ParsBERT |
XLM-R |
ParsiNLU |
55.87 |
44.89 |
42.55 |
PQuAD |
87.34 |
86.89 |
87.60 |
PCoQA |
53.51 |
50.96 |
51.12 |
自然语言推理与QQP
任务 |
FaBERT |
ParsBERT |
XLM-R |
FarsTail |
84.45 |
82.52 |
83.50 |
SBU-NLI |
66.65 |
58.41 |
58.85 |
ParsiNLU QQP |
82.62 |
77.60 |
79.74 |
参数量对比
|
FaBERT |
ParsBERT |
XLM-R |
参数量(百万) |
124 |
162 |
278 |
词表量(千) |
50 |
100 |
250 |
完整性能分析请参阅论文。
引用方式
研究或项目中引用FaBERT时请使用以下BibTeX:
@article{masumi2024fabert,
title={FaBERT: Pre-training BERT on Persian Blogs},
author={Masumi, Mostafa and Majd, Seyed Soroush and Shamsfard, Mehrnoush and Beigy, Hamid},
journal={arXiv preprint arXiv:2402.06617},
year={2024}
}