语言: 波斯语
标签:
- 波斯语BERT
- 波斯语言模型
许可证: Apache-2.0
ParsBERT (v2.0)
基于Transformer的波斯语理解模型
我们重构了词汇表并在新的波斯语语料库上对ParsBERT v1.1进行了微调,以便在其他领域使用ParsBERT时提供更多功能!
关于之前和当前模型的最新信息,请关注ParsBERT仓库。
简介
ParsBERT是基于谷歌BERT架构的单语语言模型。该模型在大量波斯语语料库上进行了预训练,涵盖了多种写作风格和主题(如科学、小说、新闻),包含超过390万
篇文档、7300万
个句子和13亿
个单词。
相关论文: arXiv:2005.12515
用途与限制
您可以将原始模型用于掩码语言建模或下一句预测,但主要目的是在下游任务上进行微调。请查看模型中心寻找您感兴趣任务的微调版本。
使用方法
TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']
PyTorch
from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
训练
ParsBERT在大量公开语料库(波斯维基百科、MirasText)以及从各类网站手动爬取的六种其他文本数据上进行了训练(BigBang Page 科学
、Chetor 生活方式
、Eligasht 旅行
、Digikala 数字杂志
、Ted Talks 通用对话
、书籍 小说、故事书、从古至今的短篇故事
)。
作为ParsBERT方法的一部分,我们结合了词性标注和WordPiece分词进行了广泛的预处理,以使语料库达到合适的格式。
训练目标
训练过程中的目标如下(经过30万步后)。
***** 评估结果 *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05
衍生模型
基础配置
ParsBERT v2.0 模型
ParsBERT v2.0 情感分析
ParsBERT v2.0 文本分类
ParsBERT v2.0 命名实体识别
评估结果
ParsBERT在三个NLP下游任务上进行了评估:情感分析(SA)、文本分类和命名实体识别(NER)。由于资源不足,我们手动构建了两个用于情感分析和两个用于文本分类的大型数据集,这些数据集可供公开使用和基准测试。ParsBERT在所有任务中均优于其他语言模型,包括多语言BERT和其他混合深度学习模型,提升了波斯语语言建模的最先进性能。
情感分析(SA)任务
数据集 |
ParsBERT v2 |
ParsBERT v1 |
mBERT |
DeepSentiPers |
Digikala用户评论 |
81.72 |
81.74* |
80.74 |
- |
SnappFood用户评论 |
87.98 |
88.12* |
87.87 |
- |
SentiPers(多分类) |
71.31* |
71.11 |
- |
69.33 |
SentiPers(二分类) |
92.42* |
92.13 |
- |
91.98 |
文本分类(TC)任务
数据集 |
ParsBERT v2 |
ParsBERT v1 |
mBERT |
Digikala杂志 |
93.65* |
93.59 |
90.72 |
波斯新闻 |
97.44* |
97.19 |
95.79 |
命名实体识别(NER)任务
数据集 |
ParsBERT v2 |
ParsBERT v1 |
mBERT |
MorphoBERT |
Beheshti-NER |
LSTM-CRF |
基于规则的CRF |
BiLSTM-CRF |
PEYMA |
93.40* |
93.10 |
86.64 |
- |
90.59 |
- |
84.00 |
- |
ARMAN |
99.84* |
98.79 |
95.89 |
89.9 |
84.03 |
86.55 |
- |
77.45 |
BibTeX引用信息
请在出版物中引用如下内容:
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
问题?
请在ParsBERT Issues仓库提交Github问题。