modernbert-base-tr-uncased开源土耳其语预训练模型 - 长文本处理，多领域表现出色！

首页

Modernbert Base Tr Uncased

由 artiwise-ai 开发

基于ModernBERT架构的土耳其语预训练模型，支持8192上下文长度，在多个领域表现优异

大型语言模型

Transformers

其他开源协议:MIT #土耳其语掩码预测 #长上下文支持 #多领域适配

下载量 159

发布时间 : 3/16/2025

模型简介

这是ModernBERT的土耳其语适配版本，基于answerdotai/ModernBERT-base，使用CulturaX的土耳其语部分进行微调，专为土耳其语文本处理优化

模型特点

扩展上下文长度

支持8192的上下文长度，远超传统BERT模型的512限制

多领域优化

在问答、评论和生物医学等多个领域表现优异

现代化架构

基于ModernBERT架构，具有改进的预训练和微调能力

模型能力

土耳其语文本理解

掩码语言建模

多领域文本处理

使用案例

问答系统

土耳其语问答

用于构建土耳其语问答系统

在问答数据集上达到74.5%准确率（5%掩码比例）

情感分析

产品评论分析

分析土耳其语产品评论

在评论数据集上达到62.67%准确率（5%掩码比例）

生物医学文本处理

医学文献分析

处理土耳其语生物医学文本

在生物医学数据集上达到58.11%准确率（5%掩码比例）

🚀 Artiwise ModernBERT - 基础土耳其语无大小写区分模型

Artiwise ModernBERT 是一款针对土耳其语的 BERT 模型，它采用了现代化的架构，并增加了上下文大小（从旧版 BERT 模型的 512 提升到了 8192），为土耳其语的自然语言处理任务带来了更强大的能力。

🚀 快速开始

我们推出了适用于土耳其语的 Artiwise ModernBERT🎉。这是一个架构现代化且上下文大小增加的 BERT 模型（旧版 BERT 模型为 512，而 ModernBERT 为 8192）。

该模型是 ModernBERT 的土耳其语适配版本，它基于 answerdotai/ModernBERT-base 进行微调，仅使用了 CulturaX 数据集中的土耳其语部分。

📊 模型统计信息

属性	详情
模型类型	Artiwise ModernBERT - 基础土耳其语无大小写区分模型
训练数据	CulturaX 192GB（土耳其语）
基础模型	`answerdotai/ModernBERT-base`

📈 基准测试

以下基准测试结果表明，Artiwise ModernBERT 在多个领域和掩码级别上始终优于现有的土耳其语 BERT 变体，凸显了其卓越的泛化能力。

数据集与掩码级别	Artiwise Modern Bert	ytu - ce - cosmos/turkish - base - bert - uncased	dbmdz/bert - base - turkish - uncased
问答数据集（5% 掩码）	74.50	60.84	48.57
问答数据集（10% 掩码）	72.18	58.75	46.29
问答数据集（15% 掩码）	69.46	56.50	44.30
评论数据集（5% 掩码）	62.67	48.57	35.38
评论数据集（10% 掩码）	59.60	45.77	33.04
评论数据集（15% 掩码）	56.51	43.05	31.05
生物医学数据集（5% 掩码）	58.11	50.78	40.82
生物医学数据集（10% 掩码）	55.55	48.37	38.51
生物医学数据集（15% 掩码）	52.71	45.82	36.44

我们的实验使用了三个数据集：土耳其语生物医学语料库、土耳其语产品评论数据集和通用领域问答语料库 turkish_v2。

💻 使用示例

基础用法

# 注意：为使模型正常运行，Torch 版本必须 >= 2.6.0，transformers 版本 >= 4.50.0。
# 另外，不要在分词器中使用 `do_lower_case = True` 标志。相反，按如下方式将文本转换为小写：
# text.replace("I", "ı").lower()
# 这是由于分词器存在一个 [已知问题](https://github.com/huggingface/transformers/issues/6680)。

from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("artiwise-ai/modernbert-base-tr-uncased")
model = AutoModelForMaskedLM.from_pretrained("artiwise-ai/modernbert-base-tr-uncased")

# 带有掩码标记的示例句子
text = "Türkiye'nin başkenti [MASK]'dır."
text.replace("I", "ı").lower()

# 分词并准备输入
inputs = tokenizer(text, return_tensors="pt")

# 获取掩码标记的位置
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]

# 前向传播
with torch.no_grad():
    outputs = model(**inputs)

# 获取掩码标记的预测结果
logits = outputs.logits
mask_token_logits = logits[0, mask_token_index, :]
top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()

# 打印预测结果
print(f"Original text: {text}")
print("Top 5 predictions for [MASK]:")
for token in top_5_tokens:
    print(f"- {tokenizer.decode([token])}")