模型简介
模型特点
模型能力
使用案例
🚀 ParsBERT (v2.0)
ParsBERT (v2.0) 是一个基于 Transformer 的波斯语语言理解模型。它在大规模波斯语语料上预训练,可用于多种自然语言处理下游任务,为波斯语的语言建模带来了更优的性能。
🚀 快速开始
ParsBERT 是基于谷歌 BERT 架构的单语语言模型。该模型在大量波斯语语料上进行了预训练,这些语料来自众多主题(如科学、小说、新闻),具有各种写作风格,包含超过 390 万
个文档、7300 万
个句子和 13 亿
个单词。
介绍 ParsBERT 的论文:arXiv:2005.12515
如何使用
TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']
Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
✨ 主要特性
- 大规模语料预训练:在超过
390 万
个文档、7300 万
个句子和13 亿
个单词的波斯语语料上进行预训练,涵盖多种主题和写作风格。 - 性能优越:在情感分析、文本分类和命名实体识别等下游任务中,超越了多语言 BERT 和其他混合深度学习模型,提升了波斯语语言建模的先进水平。
- 多种衍生模型:提供了多种基于 ParsBERT v2.0 的衍生模型,可用于不同的下游任务,如情感分析、文本分类和命名实体识别等。
📦 安装指南
文档中未提及具体安装步骤,可参考 ParsBERT 仓库获取最新信息。
💻 使用示例
基础用法
# TensorFlow 2.0 基础用法
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
高级用法
# 高级用法可根据具体下游任务进行微调,例如在情感分析任务中:
# 这里假设已经有了数据加载和预处理的代码
from transformers import TFAutoModelForSequenceClassification
import tensorflow as tf
model = TFAutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased", num_labels=2)
optimizer = tf.keras.optimizers.Adam(learning_rate=3e-5)
model.compile(optimizer=optimizer, loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True))
# 假设 train_dataset 是经过预处理的训练数据集
model.fit(train_dataset, epochs=3)
📚 详细文档
训练
ParsBERT 在大量公共语料上进行训练,包括 Persian Wikidumps、MirasText 以及从各种类型网站手动爬取的六种文本数据(如 BigBang Page 科学类
、Chetor 生活方式类
、Eligasht 行程类
、 Digikala 数字杂志类
、Ted Talks 通用对话类
、书籍 从古代到当代的小说、故事书、短篇小说
)。
作为 ParsBERT 方法的一部分,进行了结合词性标注和 WordPiece 分词的广泛预处理,以使语料达到合适的格式。
目标
训练期间的目标如下(300k 步之后):
***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05
衍生模型
基础配置
- ParsBERT v2.0 模型:HooshvareLab/bert-fa-base-uncased
ParsBERT v2.0 情感分析
- HooshvareLab/bert-fa-base-uncased-sentiment-digikala
- HooshvareLab/bert-fa-base-uncased-sentiment-snappfood
- HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-binary
- HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-multi
ParsBERT v2.0 文本分类
ParsBERT v2.0 命名实体识别 (NER)
评估结果
ParsBERT 在三个自然语言处理下游任务上进行了评估:情感分析 (SA)、文本分类 (TC) 和命名实体识别 (NER)。由于资源不足,手动整理了两个用于情感分析和两个用于文本分类的大型数据集,可供公众使用和基准测试。ParsBERT 在所有任务上都优于其他所有语言模型,包括多语言 BERT 和其他混合深度学习模型,提高了波斯语语言建模的先进水平。
情感分析 (SA) 任务
数据集 | ParsBERT v2 | ParsBERT v1 | mBERT | DeepSentiPers |
---|---|---|---|---|
Digikala 用户评论 | 81.72 | 81.74* | 80.74 | - |
SnappFood 用户评论 | 87.98 | 88.12* | 87.87 | - |
SentiPers (多类别) | 71.31* | 71.11 | - | 69.33 |
SentiPers (二类别) | 92.42* | 92.13 | - | 91.98 |
文本分类 (TC) 任务
数据集 | ParsBERT v2 | ParsBERT v1 | mBERT |
---|---|---|---|
Digikala 杂志 | 93.65* | 93.59 | 90.72 |
波斯语新闻 | 97.44* | 97.19 | 95.79 |
命名实体识别 (NER) 任务
数据集 | ParsBERT v2 | ParsBERT v1 | mBERT | MorphoBERT | Beheshti - NER | LSTM - CRF | 基于规则的 CRF | BiLSTM - CRF |
---|---|---|---|---|---|---|---|---|
PEYMA | 93.40* | 93.10 | 86.64 | - | 90.59 | - | 84.00 | - |
ARMAN | 99.84* | 98.79 | 95.89 | 89.9 | 84.03 | 86.55 | - | 77.45 |
BibTeX 引用
请在出版物中按以下方式引用:
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
📄 许可证
本项目采用 Apache-2.0 许可证。
🔗 相关链接
如果有任何问题,请在 ParsBERT Issues 仓库中发布 GitHub 问题。



