license: apache-2.0
language:
- ar
pipeline_tag: fill-mask
library_name: transformers
tags:
- modernbert
- arabic
- fill-mask
- long-context
AraModernBert-base-V1.0
模型描述
AraModernBert是基于ModernBERT架构构建的先进阿拉伯语语言模型。该模型在阿拉伯语理解方面实现了重大突破,结合了最先进的Transformer设计创新与100GB阿拉伯语文本的大规模训练。
AraModernBert的开发过程如下:
- 定制分词器训练:我们构建了专为阿拉伯语处理优化的分词器,词汇量为50,280个标记。
- 跨标记化技术:采用跨标记化技术优化MLM任务的嵌入层初始化(详见论文)。
- 大规模掩码语言建模:模型在100GB阿拉伯语文本上进行训练。
模型配置
{
"hidden_size": 768,
"intermediate_size": 1152,
"num_attention_heads": 12,
"num_hidden_layers": 22,
"max_position_embeddings": 8192,
"vocab_size": 50280,
"global_attn_every_n_layers": 3,
"local_attention": 128,
"global_rope_theta": 160000.0,
"local_rope_theta": 10000.0,
"architectures": ["ModernBertForMaskedLM"],
"model_type": "modernbert",
"cls_token_id": 3,
"mask_token_id": 6,
"pad_token_id": 5,
"sep_token_id": 4,
"unk_token_id": 2
}
使用场景与限制
AraModernBert适用于多种阿拉伯语NLP任务,包括:
- 文本嵌入与表示
- 信息检索
- 检索增强生成(RAG)
- 文档相似度
- 文本分类
- 情感分析
局限性
- 模型针对现代标准阿拉伯语优化,在方言或古典阿拉伯语文本上表现可能有所差异
- 不同领域和专业术语的性能可能波动
- 用户应注意训练数据中潜在的偏见
评估结果

1. 语义文本相似度(STS)
我们在STS数据集上微调模型以增强语义理解能力:
注:STS优化模型将作为独立检查点发布
2. 文本分类
使用SANAD数据集进行多分类任务微调:
总体指标:
- 准确率:94.32%
- F1分数:94.31%
- 精确率:94.31%
- 召回率:94.32%
分类表现:
类别 |
精确率 |
召回率 |
F1分数 |
样本数 |
0 |
92.13% |
92.43% |
92.28% |
1,849 |
1 |
93.63% |
93.70% |
93.67% |
3,937 |
2 |
90.70% |
90.70% |
90.70% |
2,075 |
3 |
96.30% |
93.81% |
95.04% |
776 |
4 |
96.09% |
95.84% |
95.96% |
1,898 |
5 |
89.24% |
87.99% |
88.61% |
641 |
6 |
98.55% |
99.37% |
98.96% |
3,005 |
3. 命名实体识别(NER)
- 准确率:90.39%
- 精确率:0.7357
- 召回率:0.7442
- F1分数:0.7399
使用方法
使用Transformers库调用示例:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModel.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "مرحبا بكم في عالم الذكاء الاصطناعي"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
embeddings = outputs.last_hidden_state
掩码语言建模示例
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModelForMaskedLM.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "الذكاء الاصطناعي هو [MASK] المستقبل."
inputs = tokenizer(text, return_tensors="pt")
token_index = torch.where(inputs["input_ids"][0] == tokenizer.mask_token_id)[0]
outputs = model(**inputs)
predictions = outputs.logits
predicted_token_id = torch.argmax(predictions[0, token_index]).item()
predicted_token = tokenizer.decode(predicted_token_id)
print(predicted_token)
模型架构
AraModernBert融合ModernBERT架构特性与跨标记化技术:
- 22层Transformer(768隐藏维度)
- 交替注意力机制(每3层全局注意力+128标记局部窗口)
- 旋转位置嵌入(RoPE)(全局θ=160000.0/局部θ=10000.0)
- 8,192标记上下文窗口
- 50,280标记的专用阿拉伯语词汇表
技术规格
- 基础架构:ModernBERT
- 参数量:约1.49亿
- 上下文长度:8,192标记
- 词汇量:50,280
- 隐藏层维度:768
- 注意力头数:12
- 隐藏层数:22
- 中间层维度:1152
引用
@misc{AraModernBERT2025,
title={AraModernBERT:基于跨标记化与ModernBERT架构的先进阿拉伯语模型},
author={NAMAA},
year={2025},
publisher={Hugging Face},
howpublished={\url{https://huggingface.co/NAMAA-Space/AraModernBert-Base-V1.0}},
note={访问日期:2025-03-02}
}
致谢
本模型基于Answer.AI和LightOn开发的ModernBERT架构,我们感谢他们对编码器模型的贡献,并通过跨标记化技术将其扩展至阿拉伯语领域。
@misc{modernbert,
title={更智能、更优、更快、更长:面向快速、内存高效及长上下文微调推理的现代双向编码器},
author={Benjamin Warner等},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
@inproceedings{remy-delobelle2024transtokenization,
title={跨标记化与跨语言词汇迁移:低资源NLP中LLM的语言适应},
author={Remy, François等},
booktitle={第一届语言建模会议},
year={2024},
url={https://openreview.net/forum?id=sBxvoDhvao}
}