模型简介
模型特点
模型能力
使用案例
🚀 Ara - EuroBERT:阿拉伯语语义文本嵌入模型
Ara - EuroBERT 是一个专门针对阿拉伯语语义文本嵌入进行优化的模型。它基于 [EuroBERT/EuroBERT - 610m](https://huggingface.co/EuroBERT/EuroBERT - 610m) 进行微调,能够将句子和段落映射到一个 1152 维的密集向量空间,最大序列长度可达 8192 个标记。该模型可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等多种任务。
🚀 快速开始
直接使用(Sentence Transformers)
首先,安装 Sentence Transformers 库:
pip install -U sentence-transformers
然后,加载模型并进行推理:
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载模型
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-610M")
# 进行推理
sentences = [
'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
'شخصان يلعبان كرة البيسبول',
'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1152]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
✨ 主要特性
- 语义文本嵌入:能够将阿拉伯语句子和段落映射到 1152 维的密集向量空间,实现语义文本相似度计算等多种任务。
- 长序列处理:最大序列长度可达 8192 个标记,可处理较长的文本。
- 嵌套嵌入支持:支持 Matryoshka(嵌套)嵌入,维度包括 1152、960、768 和 512,可根据性能和计算效率的需求进行选择。
📦 安装指南
安装 Sentence Transformers 库:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载模型
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-610M")
# 进行推理
sentences = [
'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
'شخصان يلعبان كرة البيسبول',
'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1152]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 详细文档
模型详情与基准性能
 上述基准测试结果表明,与标准 EuroBERT 模型相比,AraEuroBERT 模型的性能有显著提升:
- STS17 基准测试:AraEuroBERT - 610M 得分 83,显著优于标准 EuroBERT - 610M(14),甚至超过更大的 EuroBERT - 2.1B(12)。
- STS22.v2 基准测试:AraEuroBERT - 210M 得分 61,优于更大的 AraEuroBERT - 610M(53)和所有标准 EuroBERT 变体。
这些结果凸显了我们针对阿拉伯语文本嵌入进行的专门微调的有效性,即使是参数较少的 210M 模型,在阿拉伯语语义任务上也表现出色。
指标
语义相似度
- 数据集:
sts - dev - 1152
、sts - dev - 960
、sts - dev - 768
和sts - dev - 512
- 评估方法:使用
EmbeddingSimilarityEvaluator
进行评估
指标 | sts - dev - 1152 | sts - dev - 960 | sts - dev - 768 | sts - dev - 512 |
---|---|---|---|---|
pearson_cosine | 0.8264 | 0.8259 | 0.8244 | 0.8238 |
spearman_cosine | 0.8307 | 0.8302 | 0.8293 | 0.8293 |
模型描述
属性 | 详情 |
---|---|
模型类型 | Sentence Transformer |
基础模型 | [EuroBERT/EuroBERT - 610m](https://huggingface.co/EuroBERT/EuroBERT - 610m) |
最大序列长度 | 8192 个标记 |
输出维度 | 1152 维(支持嵌套维度:1152、960、768、512) |
相似度函数 | 余弦相似度 |
训练数据 | 228 万个包含阿拉伯语文本三元组的训练样本 |
语言 | 阿拉伯语 |
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel
(1): Pooling({'word_embedding_dimension': 1152, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
嵌套嵌入
该模型支持 Matryoshka(嵌套)嵌入,维度如下:
- 全维度:1152
- 降维维度:960、768、512
你可以根据具体需求选择嵌入维度,在性能和计算效率之间进行权衡。
🔧 技术细节
模型微调
该模型基于 [EuroBERT/EuroBERT - 610m](https://huggingface.co/EuroBERT/EuroBERT - 610m) 进行微调,专门针对阿拉伯语语义文本嵌入进行优化。通过在大量阿拉伯语文本三元组上进行训练,模型能够更好地捕捉阿拉伯语的语义信息。
向量空间映射
模型将句子和段落映射到一个 1152 维的密集向量空间,使得语义相似的文本在向量空间中距离更近。同时,模型支持最大 8192 个标记的序列长度,能够处理较长的文本。
嵌套嵌入机制
模型支持 Matryoshka(嵌套)嵌入,提供了不同维度的嵌入选项。用户可以根据实际需求选择合适的维度,在性能和计算效率之间进行平衡。
📄 许可证
本模型遵循 MIT 许可证。
📖 引用
如果在你的研究中使用了该模型,请引用以下文献:
@misc{boizard2025eurobertscalingmultilingualencoders,
title={EuroBERT: Scaling Multilingual Encoders for European Languages},
author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
year={2025},
eprint={2503.05500},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.05500},
}
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}







