🚀 GATE-AraBert-V1
GATE | General Arabic Text Embedding 是在多任务设置中使用 SentenceTransformers 训练的模型。该系统在 AllNLI 和 STS 数据集上进行训练。详细内容可参考论文 GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Hybrid Loss Training。
项目页面:https://huggingface.co/collections/Omartificial-Intelligence-Space/arabic-matryoshka-embedding-models-666f764d3b570f44d7f77d4e
🚀 快速开始
直接使用(Sentence Transformers)
首先安装 Sentence Transformers 库:
pip install -U sentence-transformers
然后可以加载此模型并进行推理。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Omartificial-Intelligence-Space/GATE-AraBert-v1")
sentences = [
'الكلب البني مستلقي على جانبه على سجادة بيج، مع جسم أخضر في المقدمة.',
'لقد مات الكلب',
'شخص طويل القامة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
✨ 主要特性
这是一个在多任务设置中使用 SentenceTransformers 训练的通用阿拉伯语文本嵌入模型,在 AllNLI 和 STS 数据集上进行训练。
📦 安装指南
安装 Sentence Transformers 库:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Omartificial-Intelligence-Space/GATE-AraBert-v1")
sentences = [
'الكلب البني مستلقي على جانبه على سجادة بيج، مع جسم أخضر في المقدمة.',
'لقد مات الكلب',
'شخص طويل القامة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 详细文档
模型详情
模型描述
评估
指标
语义相似度(数据集:sts-dev
)
使用 EmbeddingSimilarityEvaluator
进行评估。
指标 |
值 |
pearson_cosine |
0.8391 |
spearman_cosine |
0.841 |
pearson_manhattan |
0.8277 |
spearman_manhattan |
0.8361 |
pearson_euclidean |
0.8274 |
spearman_euclidean |
0.8358 |
pearson_dot |
0.8154 |
spearman_dot |
0.818 |
pearson_max |
0.8391 |
spearman_max |
0.841 |
语义相似度(数据集:sts-test
)
使用 EmbeddingSimilarityEvaluator
进行评估。
指标 |
值 |
pearson_cosine |
0.813 |
spearman_cosine |
0.8173 |
pearson_manhattan |
0.8114 |
spearman_manhattan |
0.8164 |
pearson_euclidean |
0.8103 |
spearman_euclidean |
0.8158 |
pearson_dot |
0.7908 |
spearman_dot |
0.7887 |
pearson_max |
0.813 |
spearman_max |
0.8173 |
📄 许可证
本项目采用 apache-2.0 许可证。
📚 引用
如果使用 GATE 模型,请按以下方式引用:
@misc{nacar2025GATE,
title={GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Hybrid Loss Training},
author={Omer Nacar, Anis Koubaa, Serry Taiseer Sibaee and Lahouari Ghouti},
year={2025},
note={Submitted to COLING 2025},
url={https://huggingface.co/Omartificial-Intelligence-Space/GATE-AraBert-v1},
}