language: fa
tags:
- albert-persian
- persian-lm
license: apache-2.0
ALBERT-波斯语版
一种轻量级BERT模型,用于波斯语语言表征的自监督学习
你可以称它为"小伯特"
简介
ALBERT-波斯语版基于海量公开语料库训练而成,包括波斯语维基百科 dump、MirasText以及从六类网站手动爬取的文本数据(BigBang 科学网 科普
、Chetor 生活网 生活方式
、Eligasht 旅游博客 行程攻略
、Digikala 数码杂志 数字杂志
、Ted 演讲 通用对话
、各类书籍 涵盖从古典到当代时期的小说、故事书和短篇故事
)。
关于历史及当前模型的最新信息,请关注ALBERT-波斯语版代码库。
用途与限制
该原始模型可用于掩码语言建模或下一句预测,但主要用途是下游任务的微调。可通过模型中心寻找您感兴趣任务的微调版本。
使用方法
- 使用任何ALBERT模型需先安装sentencepiece
- 在笔记本中运行
!pip install -q sentencepiece
TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = TFAutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")
text = "我们在Hooshvare坚信,通过准确的知识传递,每个人都能使用智能工具。我们的口号是'人工智能为所有人'。"
tokenizer.tokenize(text)
>>> ['▁我们', '▁在', '▁Hoosh', 'vare', '▁坚信', ',', '▁通过', '▁准确', '▁的', '▁知识', '▁传递', ',', '▁每个', '▁人', '▁都能', '▁使用', '▁智能', '▁工具', '。', '▁我们', '▁的', '▁口号', '▁是', "'", '▁人工', '▁智能', '▁为', '▁所有', '▁人', "'", '。']
PyTorch
from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = AutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")
训练过程
ALBERT-波斯语版是波斯语ALBERT模型的首次尝试。该模型基于谷歌ALBERT BASE 2.0版本,在多样化的写作风格(如科普、小说、新闻)上训练,涵盖超过390万文档、7300万句子和13亿词汇,训练方式与ParsBERT相同。
训练目标
训练14万步后的评估结果如下:
***** 评估结果 *****
全局步数 = 140000
损失值 = 2.0080082
掩码语言模型准确率 = 0.6141017
掩码语言模型损失 = 1.9963315
句子顺序准确率 = 0.985
句子顺序损失 = 0.06908702
衍生模型
基础配置
ALBERT模型
ALBERT情感分析
ALBERT文本分类
ALBERT命名实体识别
评估结果
下表对比了ALBERT-波斯语版与其他模型的F1分数表现。
情感分析任务
数据集 |
ALBERT-fa-base-v2 |
ParsBERT-v1 |
mBERT |
DeepSentiPers |
Digikala用户评论 |
81.12 |
81.74 |
80.74 |
- |
SnappFood用户评论 |
85.79 |
88.12 |
87.87 |
- |
SentiPers(多分类) |
66.12 |
71.11 |
- |
69.33 |
SentiPers(二分类) |
91.09 |
92.13 |
- |
91.98 |
文本分类任务
数据集 |
ALBERT-fa-base-v2 |
ParsBERT-v1 |
mBERT |
Digikala杂志 |
92.33 |
93.59 |
90.72 |
波斯新闻 |
97.01 |
97.19 |
95.79 |
命名实体识别任务
数据集 |
ALBERT-fa-base-v2 |
ParsBERT-v1 |
mBERT |
MorphoBERT |
Beheshti-NER |
LSTM-CRF |
基于规则的CRF |
BiLSTM-CRF |
PEYMA |
88.99 |
93.10 |
86.64 |
- |
90.59 |
- |
84.00 |
- |
ARMAN |
97.43 |
98.79 |
95.89 |
89.9 |
84.03 |
86.55 |
- |
77.45 |
引用信息
学术引用请使用以下格式:
@misc{ALBERT-Persian,
author = {Mehrdad Farahani},
title = {ALBERT-波斯语版:波斯语语言表征自监督学习的轻量级BERT模型},
year = {2020},
publisher = {GitHub},
journal = {GitHub仓库},
howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}
@article{ParsBERT,
title={ParsBERT:基于Transformer的波斯语理解模型},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
问题反馈?
请在ALBERT-波斯语版代码库提交GitHub issue。