T

Tookabert Base

由 PartAI 开发
TookaBERT是基于波斯语训练的编码器模型家族,包含基础版和大规模版两个版本,适用于多种自然语言处理任务。
下载量 127
发布时间 : 4/29/2024
模型介绍
内容详情
替代品

模型简介

TookaBERT模型是基于波斯语训练的编码器模型家族,适用于填充掩码任务,支持多种下游任务如情感分析、文本分类、多项选择、问答和命名实体识别。

模型特点

多主题预训练
在超过500GB的波斯语数据上进行预训练,涵盖新闻、博客、论坛、书籍等多种主题。
遮蔽语言建模
采用遮蔽语言建模(WWM)目标进行预训练,支持填充掩码任务。
多任务支持
支持多种下游任务,包括情感分析、文本分类、多项选择、问答和命名实体识别。

模型能力

填充掩码
情感分析
文本分类
多项选择
问答
命名实体识别

使用案例

情感分析
DeepSentiPers
用于波斯语情感分析任务
f1/acc: 85.66/85.78 (TookaBERT-large)
命名实体识别
MultiCoNER-v2
用于波斯语命名实体识别任务
f1/acc: 69.69/94.07 (TookaBERT-large)
问答
PQuAD
用于波斯语问答任务
best_exact/best_f1/HasAns_exact/HasAns_f1: 75.56/88.06/70.24/87.83 (TookaBERT-large)