🚀 Artiwise ModernBERT - 基础土耳其语无大小写区分模型
Artiwise ModernBERT 是一款针对土耳其语的 BERT 模型,它采用了现代化的架构,并增加了上下文大小(从旧版 BERT 模型的 512 提升到了 8192),为土耳其语的自然语言处理任务带来了更强大的能力。

🚀 快速开始
我们推出了适用于土耳其语的 Artiwise ModernBERT🎉。这是一个架构现代化且上下文大小增加的 BERT 模型(旧版 BERT 模型为 512,而 ModernBERT 为 8192)。
该模型是 ModernBERT 的土耳其语适配版本,它基于 answerdotai/ModernBERT-base
进行微调,仅使用了 CulturaX 数据集中的土耳其语部分。
📊 模型统计信息
属性 |
详情 |
模型类型 |
Artiwise ModernBERT - 基础土耳其语无大小写区分模型 |
训练数据 |
CulturaX 192GB(土耳其语) |
基础模型 |
answerdotai/ModernBERT-base |
📈 基准测试
以下基准测试结果表明,Artiwise ModernBERT 在多个领域和掩码级别上始终优于现有的土耳其语 BERT 变体,凸显了其卓越的泛化能力。
数据集与掩码级别 |
Artiwise Modern Bert |
ytu - ce - cosmos/turkish - base - bert - uncased |
dbmdz/bert - base - turkish - uncased |
问答数据集(5% 掩码) |
74.50 |
60.84 |
48.57 |
问答数据集(10% 掩码) |
72.18 |
58.75 |
46.29 |
问答数据集(15% 掩码) |
69.46 |
56.50 |
44.30 |
评论数据集(5% 掩码) |
62.67 |
48.57 |
35.38 |
评论数据集(10% 掩码) |
59.60 |
45.77 |
33.04 |
评论数据集(15% 掩码) |
56.51 |
43.05 |
31.05 |
生物医学数据集(5% 掩码) |
58.11 |
50.78 |
40.82 |
生物医学数据集(10% 掩码) |
55.55 |
48.37 |
38.51 |
生物医学数据集(15% 掩码) |
52.71 |
45.82 |
36.44 |
我们的实验使用了三个数据集:土耳其语生物医学语料库、土耳其语产品评论数据集 和通用领域问答语料库 turkish_v2。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch
tokenizer = AutoTokenizer.from_pretrained("artiwise-ai/modernbert-base-tr-uncased")
model = AutoModelForMaskedLM.from_pretrained("artiwise-ai/modernbert-base-tr-uncased")
text = "Türkiye'nin başkenti [MASK]'dır."
text.replace("I", "ı").lower()
inputs = tokenizer(text, return_tensors="pt")
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
mask_token_logits = logits[0, mask_token_index, :]
top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()
print(f"Original text: {text}")
print("Top 5 predictions for [MASK]:")
for token in top_5_tokens:
print(f"- {tokenizer.decode([token])}")
📄 许可证
本项目采用 MIT 许可证。