库名称:transformers
许可证:mit
数据集:
- uonlp/CulturaX
语言:
- tr(土耳其语)
基础模型:
- answerdotai/ModernBERT-base
任务标签:fill-mask
Artiwise ModernBERT - 土耳其语基础版(无大小写)

我们推出Artiwise ModernBERT土耳其语版🎉。这是一个采用现代化架构并扩展上下文长度的BERT模型(传统BERT模型为512,ModernBERT为8192)。
该模型是ModernBERT的土耳其语适配版本,基于answerdotai/ModernBERT-base
,仅使用CulturaX的土耳其语部分进行微调。
性能指标
- 训练数据: CulturaX 192GB(土耳其语)
- 基础模型:
answerdotai/ModernBERT-base
基准测试
下表基准测试结果表明,Artiwise ModernBERT在多个领域和掩码比例下均优于现有土耳其语BERT变体,展现了其卓越的泛化能力。
数据集及掩码比例 |
Artiwise Modern Bert |
ytu-ce-cosmos/turkish-base-bert-uncased |
dbmdz/bert-base-turkish-uncased |
问答数据集(5%掩码) |
74.50 |
60.84 |
48.57 |
问答数据集(10%掩码) |
72.18 |
58.75 |
46.29 |
问答数据集(15%掩码) |
69.46 |
56.50 |
44.30 |
评论数据集(5%掩码) |
62.67 |
48.57 |
35.38 |
评论数据集(10%掩码) |
59.60 |
45.77 |
33.04 |
评论数据集(15%掩码) |
56.51 |
43.05 |
31.05 |
生物医学数据集(5%掩码) |
58.11 |
50.78 |
40.82 |
生物医学数据集(10%掩码) |
55.55 |
48.37 |
38.51 |
生物医学数据集(15%掩码) |
52.71 |
45.82 |
36.44 |
针对每个数据集(问答、评论、生物医学)和掩码比例(5%、10%、15%),我们在每个输入样本中随机掩码指定比例的标记,并测量模型预测这些掩码标记的正确率。所有模型均使用bfloat16精度。
实验使用了三个数据集:土耳其生物医学语料库、土耳其产品评论数据集以及通用领域问答语料库turkish_v2。
模型使用说明
注意:模型正常运行需满足Torch版本≥2.6.0且transformers版本≥4.50.0。
请勿使用do_lower_case = True
标记初始化分词器,而应按以下方式将文本转为小写:
text.replace("I", "ı").lower()
此操作源于分词器的一个已知问题。
通过🤗 Transformers加载模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch
tokenizer = AutoTokenizer.from_pretrained("artiwise-ai/modernbert-base-tr-uncased")
model = AutoModelForMaskedLM.from_pretrained("artiwise-ai/modernbert-base-tr-uncased")
text = "Türkiye'nin başkenti [MASK]'dır."
text.replace("I", "ı").lower()
inputs = tokenizer(text, return_tensors="pt")
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
mask_token_logits = logits[0, mask_token_index, :]
top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()
print(f"原始文本: {text}")
print("掩码标记的Top 5预测:")
for token in top_5_tokens:
print(f"- {tokenizer.decode([token])}")