AraEuroBert-610M开源模型 - 支持大序列长度的阿拉伯语语义文本嵌入

首页

Araeurobert 610M

由 Omartificial-Intelligence-Space 开发

基于EuroBERT-610m微调的阿拉伯语语义文本嵌入模型，支持1152维稠密向量空间和8192标记的最大序列长度。

文本嵌入

Safetensors

阿拉伯语开源协议:MIT #阿拉伯语语义嵌入 #长文本处理(8k)#套娃式向量

下载量 160

发布时间 : 3/19/2025

模型简介

专为阿拉伯语优化的语义文本嵌入模型，适用于语义相似度计算、语义搜索、文本分类等任务。

模型特点

阿拉伯语优化

针对阿拉伯语文本进行了专业微调，显著提升阿拉伯语义任务性能

长文本支持

支持最大8192标记的序列长度，适合处理长文本

嵌套嵌入

支持1152/960/768/512维度的套娃式嵌入，可根据需求调整维度

高性能

在STS17和STS22.v2基准测试中表现优于标准EuroBERT模型

模型能力

语义文本相似度计算

语义搜索

复述挖掘

文本分类

文本聚类

使用案例

信息检索

阿拉伯语语义搜索

构建阿拉伯语搜索引擎，理解查询与文档的语义相似度

提升搜索结果的相关性

文本分析

阿拉伯语文本分类

对阿拉伯语新闻、评论等进行自动分类

准确率优于传统方法

🚀 Ara - EuroBERT：阿拉伯语语义文本嵌入模型

Ara - EuroBERT 是一个专门针对阿拉伯语语义文本嵌入进行优化的模型。它基于 [EuroBERT/EuroBERT - 610m](https://huggingface.co/EuroBERT/EuroBERT - 610m) 进行微调，能够将句子和段落映射到一个 1152 维的密集向量空间，最大序列长度可达 8192 个标记。该模型可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等多种任务。

🚀 快速开始

直接使用（Sentence Transformers）

首先，安装 Sentence Transformers 库：

pip install -U sentence-transformers

然后，加载模型并进行推理：

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-610M")

# 进行推理
sentences = [
    'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
    'شخصان يلعبان كرة البيسبول',
    'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1152]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

语义文本嵌入：能够将阿拉伯语句子和段落映射到 1152 维的密集向量空间，实现语义文本相似度计算等多种任务。
长序列处理：最大序列长度可达 8192 个标记，可处理较长的文本。
嵌套嵌入支持：支持 Matryoshka（嵌套）嵌入，维度包括 1152、960、768 和 512，可根据性能和计算效率的需求进行选择。

📦 安装指南

安装 Sentence Transformers 库：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-610M")

# 进行推理
sentences = [
    'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
    'شخصان يلعبان كرة البيسبول',
    'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1152]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 详细文档

模型详情与基准性能

![基准测试结果](https://cdn - uploads.huggingface.co/production/uploads/628f7a71dd993507cfcbe587/Kv78q7NmI3hhOXkRv30s9.png) 上述基准测试结果表明，与标准 EuroBERT 模型相比，AraEuroBERT 模型的性能有显著提升：

STS17 基准测试：AraEuroBERT - 610M 得分 83，显著优于标准 EuroBERT - 610M（14），甚至超过更大的 EuroBERT - 2.1B（12）。
STS22.v2 基准测试：AraEuroBERT - 210M 得分 61，优于更大的 AraEuroBERT - 610M（53）和所有标准 EuroBERT 变体。

这些结果凸显了我们针对阿拉伯语文本嵌入进行的专门微调的有效性，即使是参数较少的 210M 模型，在阿拉伯语语义任务上也表现出色。

指标

语义相似度

数据集：sts - dev - 1152、sts - dev - 960、sts - dev - 768 和 sts - dev - 512
评估方法：使用 EmbeddingSimilarityEvaluator 进行评估

指标	sts - dev - 1152	sts - dev - 960	sts - dev - 768	sts - dev - 512
pearson_cosine	0.8264	0.8259	0.8244	0.8238
spearman_cosine	0.8307	0.8302	0.8293	0.8293

模型描述

属性	详情
模型类型	Sentence Transformer
基础模型	[EuroBERT/EuroBERT - 610m](https://huggingface.co/EuroBERT/EuroBERT - 610m)
最大序列长度	8192 个标记
输出维度	1152 维（支持嵌套维度：1152、960、768、512）
相似度函数	余弦相似度
训练数据	228 万个包含阿拉伯语文本三元组的训练样本
语言	阿拉伯语

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel 
  (1): Pooling({'word_embedding_dimension': 1152, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

嵌套嵌入

该模型支持 Matryoshka（嵌套）嵌入，维度如下：

全维度：1152
降维维度：960、768、512

你可以根据具体需求选择嵌入维度，在性能和计算效率之间进行权衡。

🔧 技术细节

模型微调

该模型基于 [EuroBERT/EuroBERT - 610m](https://huggingface.co/EuroBERT/EuroBERT - 610m) 进行微调，专门针对阿拉伯语语义文本嵌入进行优化。通过在大量阿拉伯语文本三元组上进行训练，模型能够更好地捕捉阿拉伯语的语义信息。

向量空间映射

模型将句子和段落映射到一个 1152 维的密集向量空间，使得语义相似的文本在向量空间中距离更近。同时，模型支持最大 8192 个标记的序列长度，能够处理较长的文本。

嵌套嵌入机制

模型支持 Matryoshka（嵌套）嵌入，提供了不同维度的嵌入选项。用户可以根据实际需求选择合适的维度，在性能和计算效率之间进行平衡。

📄 许可证

本模型遵循 MIT 许可证。

📖 引用

如果在你的研究中使用了该模型，请引用以下文献：

@misc{boizard2025eurobertscalingmultilingualencoders,
      title={EuroBERT: Scaling Multilingual Encoders for European Languages}, 
      author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
      year={2025},
      eprint={2503.05500},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.05500}, 
}

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}