AraModernBert-Base-V1.0开源阿拉伯语语言模型 - 助力高效处理阿拉伯语内容

首页

Aramodernbert Base V1.0

由 NAMAA-Space 开发

AraModernBert是基于ModernBERT架构构建的先进阿拉伯语语言模型，结合了Transformer设计创新与100GB阿拉伯语文本的大规模训练。

大型语言模型

Transformers

阿拉伯语开源协议:Apache-2.0 #阿拉伯语长文本处理 #跨标记化技术 #8192上下文窗口

下载量 660

发布时间 : 2/1/2025

模型简介

该模型专为阿拉伯语理解设计，适用于文本嵌入、信息检索、文本分类等多种NLP任务。

模型特点

跨标记化技术

采用跨标记化技术优化MLM任务的嵌入层初始化，提升模型性能

长上下文支持

支持8,192标记的上下文窗口，适合处理长文本

专用阿拉伯语分词器

使用50,280词汇量的定制分词器，专门优化阿拉伯语处理

交替注意力机制

每3层全局注意力+128标记局部窗口的混合注意力架构

模型能力

阿拉伯语文本理解

掩码语言建模

语义文本相似度计算

文本分类

命名实体识别

使用案例

文本分析

语义文本相似度

计算两段阿拉伯语文本的语义相似度

STS17: 0.831, STS22: 0.617

文本分类

对阿拉伯语文本进行分类

准确率94.32%，F1分数94.31%

信息检索

检索增强生成(RAG)

用于阿拉伯语问答系统的检索组件

🚀 AraModernBert-base-V1.0

AraModernBert是基于ModernBERT架构构建的先进阿拉伯语模型。该模型结合了最先进的Transformer设计创新，并在100GB阿拉伯语文本上进行了广泛训练，在阿拉伯语理解方面取得了重大进展。

🚀 快速开始

以下是使用Transformers库调用AraModernBert的示例代码：

from transformers import AutoTokenizer, AutoModel

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModel.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")

# 编码文本
text = "مرحبا بكم في عالم الذكاء الاصطناعي"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# 获取嵌入向量
embeddings = outputs.last_hidden_state

掩码语言模型示例

from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch

tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModelForMaskedLM.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")

text = "الذكاء الاصطناعي هو [MASK] المستقبل."
inputs = tokenizer(text, return_tensors="pt")
token_index = torch.where(inputs["input_ids"][0] == tokenizer.mask_token_id)[0]

outputs = model(**inputs)
predictions = outputs.logits
predicted_token_id = torch.argmax(predictions[0, token_index]).item()
predicted_token = tokenizer.decode(predicted_token_id)
print(predicted_token)

✨ 主要特性

先进架构：基于ModernBERT架构构建，结合了最先进的Transformer设计创新。
大规模训练：在100GB阿拉伯语文本上进行了广泛训练，提升了阿拉伯语理解能力。
定制分词器：构建了专门的分词器，词汇量为50,280个标记，优化了阿拉伯语处理。
长上下文处理：最大位置嵌入为8192，能够处理长文档。

📚 详细文档

模型描述

AraModernBert是基于ModernBERT架构的先进阿拉伯语模型，代表了阿拉伯语理解的重大进步。它结合了最先进的Transformer设计创新，并在100GB阿拉伯语文本上进行了广泛训练。

AraModernBert的开发过程如下：

定制分词器训练：构建了专门的分词器，针对阿拉伯语处理进行了优化，词汇量为50,280个标记。
跨标记化：使用跨标记化技术，为MLM（掩码语言模型）最佳初始化嵌入层（更多细节请参阅论文）。
大规模掩码语言模型训练：在100GB阿拉伯语文本上对模型进行了训练。

模型配置

{
  "hidden_size": 768,
  "intermediate_size": 1152,
  "num_attention_heads": 12,
  "num_hidden_layers": 22,
  "max_position_embeddings": 8192,
  "vocab_size": 50280,
  "global_attn_every_n_layers": 3,
  "local_attention": 128,
  "global_rope_theta": 160000.0,
  "local_rope_theta": 10000.0,
  "architectures": ["ModernBertForMaskedLM"],
  "model_type": "modernbert",
  "cls_token_id": 3,
  "mask_token_id": 6,
  "pad_token_id": 5,
  "sep_token_id": 4,
  "unk_token_id": 2
}

预期用途与局限性

预期用途

AraModernBert可用于广泛的阿拉伯语自然语言处理任务，包括：

文本嵌入与表示
信息检索
RAG（检索增强生成）
文档相似度
文本分类
情感分析

局限性和偏差

该模型针对现代标准阿拉伯语进行了优化，在方言阿拉伯语变体或古典阿拉伯语文本上的性能可能会有所不同。
性能可能因领域和专业术语而异。
用户应注意训练数据中可能存在的偏差。

评估结果

image/png

1. 语义文本相似度（STS）

我们在STS数据集上对模型进行了微调，以增强语义理解能力：

STS17：0.831
STS22：0.617

注意：针对STS优化的模型将作为单独的检查点尽快发布。

2. 文本分类

我们使用SANAD数据集在多类分类任务上对AraModernBert进行了微调。

总体指标：

AraModernBert：
- 准确率：94.32%
- F1分数：94.31%
- 精确率：94.31%
- 召回率：94.32%

每类性能（AraModernBert）：

类别	精确率	召回率	F1分数	支持度
0	92.13%	92.43%	92.28%	1,849
1	93.63%	93.70%	93.67%	3,937
2	90.70%	90.70%	90.70%	2,075
3	96.30%	93.81%	95.04%	776
4	96.09%	95.84%	95.96%	1,898
5	89.24%	87.99%	88.61%	641
6	98.55%	99.37%	98.96%	3,005

3. 命名实体识别（NER）

该模型在阿拉伯语NER任务上取得了优异的性能：

准确率：90.39%
精确率：0.7357
召回率：0.7442
F1分数：0.7399

模型架构

AraModernBert继承了ModernBERT的现代架构特性，并添加了跨标记化方法：

22个Transformer层，隐藏维度为768。
交替注意力机制，每3层进行一次全局注意力，局部注意力窗口为128个标记。
旋转位置嵌入（RoPE），全局注意力的theta值为160000.0，局部注意力的theta值为10000.0。
8192个标记的上下文窗口，能够处理更长的文档。
专门的词汇表，包含50,280个标记，针对阿拉伯语进行了优化。

技术规格

属性	详情
基础架构	ModernBERT
参数数量	约1.49亿（基于配置）
上下文长度	8192个标记
词汇量	50,280
隐藏大小	768
注意力头数量	12
隐藏层数量	22
中间大小	1152

引用

如果您在研究中使用了该模型，请引用：

@misc{AraModernBERT2025,
  title={AraModernBERT: Advanced Arabic Language Model Through Trans-Tokenization and ModernBERT architecture},
  author={NAMAA},
  year={2025},
  publisher={Hugging Face},
  howpublished={\url{https://huggingface.co/NAMAA-Space/AraModernBert-Base-V1.0}},
  note={Accessed: 2025-03-02}
}

致谢

该模型基于Answer.AI和LightOn开发的ModernBERT架构构建。我们感谢他们在仅编码器模型领域的贡献，并通过我们新颖的跨标记化方法将他们的工作扩展到阿拉伯语。

@misc{modernbert,
      title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference}, 
      author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
      year={2024},
      eprint={2412.13663},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.13663}, 
}

@inproceedings{remy-delobelle2024transtokenization,
    title={Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of {LLM}s for Low-Resource {NLP}},
    author={Remy, Fran{\c{c}}ois and Delobelle, Pieter and Avetisyan, Hayastan and Khabibullina, Alfiya and de Lhoneux, Miryam and Demeester, Thomas},
    booktitle={First Conference on Language Modeling},
    year={2024},
    url={https://openreview.net/forum?id=sBxvoDhvao}
}