jp-ModernBERT-large-preview开源日语模型 - 支持掩码填充，超长上下文处理

首页

Jp ModernBERT Large Preview

由 makiart 开发

由Algomatic团队训练的日语BERT模型，支持填充掩码任务，上下文长度达8192。

大型语言模型

Safetensors

日语开源协议:MIT #日语填充掩码 #长上下文支持 #高效推理

下载量 20

发布时间 : 2/11/2025

模型简介

这是一个基于BERT架构的日语语言模型，专门针对填充掩码任务进行优化。模型在fineweb2日语数据集上训练，具有较大的上下文处理能力。

模型特点

长上下文支持

支持8192 tokens的上下文长度，适合处理长文本任务。

高效推理

支持FlashAttention加速，在兼容GPU上可提升推理效率。

专业日语分词

使用BertJapaneseTokenizer分词器，针对日语文本处理优化。

模型能力

日语文本理解

填充掩码预测

长文本处理

使用案例

文本处理

句子补全

预测句子中被掩码的词语

示例中展示了预测'我々の大方の苦悩は、あり得べき別の[MASK]を夢想することから始まる。'中[MASK]位置的可能词语

🚀 makiart/jp-modernbert-large-preview

本模型是由Algomatic团队借助ABCI 生成AI黑客松所提供的计算资源创建而成。该模型可用于掩码填充任务，在自然语言处理领域有一定的应用价值。

属性	详情
模型类型	掩码语言模型
训练数据	HuggingFaceFW/fineweb - 2日本语数据
上下文长度	8192
词汇数量	50,368
总学习令牌数	约100B Tokens（从Base继承权重后）
参数数量	396M
不含嵌入的参数数量	343M

🚀 快速开始

📦 安装指南

由于本模型的分词器使用了BertJapaneseTokenizer，因此需要额外安装一些依赖库。如果你的GPU支持FlashAttention，安装相应库后可更高效地进行推理。以下是具体的安装步骤：

# 安装transformers库
pip install -U transformers>=4.48.0

# 安装分词器所需依赖
pip install fugashi unidic_lite

# 如果GPU支持FlashAttention，可安装该库以提高推理效率
pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/jp-ModernBERT-large-preview", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/jp-ModernBERT-large-preview")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

results = fill_mask("我々の大方の苦悩は、あり得べき別の[MASK]を夢想することから始まる。")

for result in results:
    print(result)

# {'score': 0.16015625, 'token': 12489, 'token_str': 'こと', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の こと を 夢想 する こと から 始まる 。'}
# {'score': 0.09716796875, 'token': 12518, 'token_str': 'もの', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の もの を 夢想 する こと から 始まる 。'}
# {'score': 0.043212890625, 'token': 12575, 'token_str': '世界', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 世界 を 夢想 する こと から 始まる 。'}
# {'score': 0.03369140625, 'token': 29991, 'token_str': '事柄', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事柄 を 夢想 する こと から 始まる 。'}
# {'score': 0.0296630859375, 'token': 655, 'token_str': '事', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事 を 夢想 する こと から 始まる 。'}