multilingual-ModernBert-base-preview开源多语言模型 - 支持填充掩码任务，长上下文超实用

首页

Multilingual ModernBert Base Preview

由 makiart 开发

由Algomatic团队开发的多语言BERT模型，支持填充掩码任务，具有8192的上下文长度和151,680的词汇量。

大型语言模型

Safetensors

开源协议:MIT #多语言填充掩码 #长上下文处理 #编程文本优化

下载量 60

发布时间 : 2/10/2025

模型简介

该模型是一个多语言的BERT模型，主要用于填充掩码任务。它支持多种语言，具有较长的上下文处理能力，适用于文本理解和生成任务。

模型特点

长上下文支持

支持8192的上下文长度，适合处理长文本任务。

多语言能力

支持多种语言，包括韩语、英语、中文和日语等。

高效推理

支持FlashAttention，可在支持GPU上实现更高效的推理。

定制化分词器

基于Qwen2.5的分词器，词汇量151,680，优化了代码缩进识别。

模型能力

填充掩码

多语言文本理解

长文本处理

使用案例

文本理解与生成

韩语文本填充

填充韩语句子中的缺失部分。

示例结果：{'score': 0.248046875, 'token': 128956, 'token_str': ' 하는', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 하는 데서 시작된다.'}

英语文本填充

填充英语句子中的缺失部分。

示例结果：{'score': 0.20703125, 'token': 5322, 'token_str': ' problems', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our problems.'}

中文文本填充

填充中文句子中的缺失部分。

示例结果：{'score': 0.177734375, 'token': 99392, 'token_str': '知道', 'sequence': '我们必须知道，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}

日语文本填充

填充日语句子中的缺失部分。

示例结果：{'score': 0.11865234375, 'token': 142732, 'token_str': 'ケーキ', 'sequence': '大きなケーキを一人で切り分けて食べるというのは孤独の極地ですからね'}

🚀 makiart/multilingual-ModernBert-base-preview

这是由 Algomatic 团队借助 ABCI 生成式 AI 黑客松提供的计算资源开发的多语言模型，可用于掩码填充任务。

属性	详情
模型类型	掩码语言模型（Masked Language Model）
训练数据	fineweb 和 fineweb2 数据集
上下文长度	8192
词汇量	151,680
总训练令牌数	约 250B 令牌
参数数量	228M
非嵌入参数数量	110M

🚀 快速开始

安装依赖

首先，你需要安装所需的 Python 包：

pip install -U transformers>=4.48.0

如果你的 GPU 支持 FlashAttention，安装以下包可以实现更高效的推理：

pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-base", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-base")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

# 韩语示例
results = fill_mask("우리의 대부분의 고뇌는 가능했을 또 다른 인생을 [MASK] 데서 시작된다.")
for result in results:
    print(result)

# 英语示例
results = fill_mask("Pinning our hopes on the unreliable notion of our potential is the root of all our [MASK].")
for result in results:
    print(result)

# 中文示例
results = fill_mask("我们必须[MASK]，我们只能成为此时此地的那个自己，而无法成为其他任何人。")
for result in results:
    print(result)

# 日语示例
results = fill_mask("大きな[MASK]を一人で切り分けて食べるというのは孤独の極地ですからね")
for result in results:
    print(result)

📚 详细文档

模型描述

训练方法：该模型采用两阶段掩码语言建模（MLM）过程进行训练。
- 掩码率：30%
- 训练数据：使用约 200B 上下文长度为 1024 的令牌和 50B 上下文长度为 8192 的令牌进行训练。
分词器：基于 Qwen2.5 构建，具有以下特点：
- 词汇量为 151,680 个令牌。
- 经过定制，能够区分代码中的缩进，从而更好地处理编程文本。
数据集：
- 使用了 fineweb 和 fineweb2 数据集。
- 对于数据丰富的语言，减少了数据量。
计算资源：使用 ABCI 提供的一个节点（H200 x 8）进行训练，大约耗时 3 天。