bert-fa-base-uncased开源波斯语理解模型 - 支持多任务免费解决语言理解难题

首页

Bert Fa Base Uncased

由 HooshvareLab 开发

基于Transformer的波斯语理解模型，重构词汇表并在新语料库上微调，支持多种下游任务

大型语言模型其他开源协议:Apache-2.0 #波斯语理解 #多任务微调 #高精度NER

下载量 19.57k

发布时间 : 3/2/2022

模型简介

ParsBERT是基于BERT架构的单语波斯语模型，在大量波斯语语料上预训练，适用于文本分类、情感分析、命名实体识别等任务

模型特点

大规模预训练

在390万文档/13亿单词的波斯语语料上训练，覆盖科学、新闻、小说等多领域

优化词汇表

重构词汇表并扩展领域适应性，提升下游任务表现

多任务支持

提供情感分析、文本分类、NER等任务的微调版本

模型能力

波斯语文本理解

情感分析

文本分类

命名实体识别

掩码语言建模

使用案例

情感分析

电商评论分析

分析Digikala/SnappFood等平台的用户评论情感倾向

准确率81.72%-87.98%

文本分类

新闻分类

对波斯新闻进行主题分类

准确率97.44%

命名实体识别

波斯语实体识别

识别文本中的人名、地名等实体

F1分数93.40%-99.84%

🚀 ParsBERT (v2.0)

ParsBERT (v2.0) 是一个基于 Transformer 的波斯语语言理解模型。它在大规模波斯语语料上预训练，可用于多种自然语言处理下游任务，为波斯语的语言建模带来了更优的性能。

🚀 快速开始

ParsBERT 是基于谷歌 BERT 架构的单语语言模型。该模型在大量波斯语语料上进行了预训练，这些语料来自众多主题（如科学、小说、新闻），具有各种写作风格，包含超过 390 万 个文档、7300 万 个句子和 13 亿 个单词。

介绍 ParsBERT 的论文：arXiv:2005.12515

如何使用

TensorFlow 2.0

from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']

Pytorch

from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

✨ 主要特性

大规模语料预训练：在超过 390 万 个文档、7300 万 个句子和 13 亿 个单词的波斯语语料上进行预训练，涵盖多种主题和写作风格。
性能优越：在情感分析、文本分类和命名实体识别等下游任务中，超越了多语言 BERT 和其他混合深度学习模型，提升了波斯语语言建模的先进水平。
多种衍生模型：提供了多种基于 ParsBERT v2.0 的衍生模型，可用于不同的下游任务，如情感分析、文本分类和命名实体识别等。

📦 安装指南

文档中未提及具体安装步骤，可参考 ParsBERT 仓库获取最新信息。

💻 使用示例

基础用法

# TensorFlow 2.0 基础用法
from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

高级用法

# 高级用法可根据具体下游任务进行微调，例如在情感分析任务中：
# 这里假设已经有了数据加载和预处理的代码
from transformers import TFAutoModelForSequenceClassification
import tensorflow as tf

model = TFAutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased", num_labels=2)
optimizer = tf.keras.optimizers.Adam(learning_rate=3e-5)
model.compile(optimizer=optimizer, loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True))

# 假设 train_dataset 是经过预处理的训练数据集
model.fit(train_dataset, epochs=3)

📚 详细文档

训练

ParsBERT 在大量公共语料上进行训练，包括 Persian Wikidumps、MirasText 以及从各种类型网站手动爬取的六种文本数据（如 BigBang Page 科学类、Chetor 生活方式类、Eligasht 行程类、 Digikala 数字杂志类、Ted Talks 通用对话类、书籍 从古代到当代的小说、故事书、短篇小说）。

作为 ParsBERT 方法的一部分，进行了结合词性标注和 WordPiece 分词的广泛预处理，以使语料达到合适的格式。

目标

训练期间的目标如下（300k 步之后）：

***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05

衍生模型

基础配置

ParsBERT v2.0 模型：HooshvareLab/bert-fa-base-uncased

ParsBERT v2.0 情感分析

ParsBERT v2.0 文本分类

ParsBERT v2.0 命名实体识别 (NER)

评估结果

ParsBERT 在三个自然语言处理下游任务上进行了评估：情感分析 (SA)、文本分类 (TC) 和命名实体识别 (NER)。由于资源不足，手动整理了两个用于情感分析和两个用于文本分类的大型数据集，可供公众使用和基准测试。ParsBERT 在所有任务上都优于其他所有语言模型，包括多语言 BERT 和其他混合深度学习模型，提高了波斯语语言建模的先进水平。

情感分析 (SA) 任务

数据集	ParsBERT v2	ParsBERT v1	mBERT	DeepSentiPers
Digikala 用户评论	81.72	81.74*	80.74	-
SnappFood 用户评论	87.98	88.12*	87.87	-
SentiPers (多类别)	71.31*	71.11	-	69.33
SentiPers (二类别)	92.42*	92.13	-	91.98

文本分类 (TC) 任务

数据集	ParsBERT v2	ParsBERT v1	mBERT
Digikala 杂志	93.65*	93.59	90.72
波斯语新闻	97.44*	97.19	95.79

命名实体识别 (NER) 任务

数据集	ParsBERT v2	ParsBERT v1	mBERT	MorphoBERT	Beheshti - NER	LSTM - CRF	基于规则的 CRF	BiLSTM - CRF
PEYMA	93.40*	93.10	86.64	-	90.59	-	84.00	-
ARMAN	99.84*	98.79	95.89	89.9	84.03	86.55	-	77.45

BibTeX 引用

请在出版物中按以下方式引用：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}