模型信息
基础模型: FacebookAI/xlm-roberta-large
库名称: sentence-transformers
评估指标:
- 皮尔逊余弦相似度
- 斯皮尔曼余弦相似度
- 皮尔逊曼哈顿距离
- 斯皮尔曼曼哈顿距离
- 皮尔逊欧氏距离
- 斯皮尔曼欧氏距离
- 皮尔逊点积
- 斯皮尔曼点积
- 皮尔逊最大值
- 斯皮尔曼最大值
任务标签: 句子相似度
标签:
- 句子转换器
- 句子相似度
- 特征提取
- MTEB
模型索引
- 名称: omarelshehy/arabic-english-sts-matryoshka-v2-checkpoint-375k
测试结果:
-
数据集:
配置: en-en
名称: MTEB STS17 (en-en)
版本: faeb762787bd10488a50c8b5be4a3b82e411949c
分割: 测试
类型: mteb/sts17-crosslingual-sts
指标:
- 类型: 余弦皮尔逊
值: 87.38302667611983
- 类型: 余弦斯皮尔曼
值: 86.87900209442004
- 类型: 欧氏皮尔逊
值: 87.57406800102012
- 类型: 欧氏斯皮尔曼
值: 86.86643232719993
- 类型: 主要得分
值: 86.87900209442004
- 类型: 曼哈顿皮尔逊
值: 87.67669085683242
- 类型: 曼哈顿斯皮尔曼
值: 86.75687931014386
- 类型: 皮尔逊
值: 87.383027901324
- 类型: 斯皮尔曼
值: 86.87900209442004
任务:
类型: STS
-
数据集:
配置: ar-ar
名称: MTEB STS17 (ar-ar)
版本: faeb762787bd10488a50c8b5be4a3b82e411949c
分割: 测试
类型: mteb/sts17-crosslingual-sts
指标:
- 类型: 余弦皮尔逊
值: 83.63516310524058
- 类型: 余弦斯皮尔曼
值: 83.77655124170212
- 类型: 欧氏皮尔逊
值: 82.4202692817126
- 类型: 欧氏斯皮尔曼
值: 83.45140961256212
- 类型: 主要得分
值: 83.77655124170212
- 类型: 曼哈顿皮尔逊
值: 82.46545160293968
- 类型: 曼哈顿斯皮尔曼
值: 83.44641098297507
- 类型: 皮尔逊
值: 83.6351624999596
- 类型: 斯皮尔曼
值: 83.76918950829455
任务:
类型: STS
-
数据集:
配置: en-ar
名称: MTEB STS17 (en-ar)
版本: faeb762787bd10488a50c8b5be4a3b82e411949c
分割: 测试
类型: mteb/sts17-crosslingual-sts
指标:
- 类型: 余弦皮尔逊
值: 82.29919720659755
- 类型: 余弦斯皮尔曼
值: 82.18717939041626
- 类型: 欧氏皮尔逊
值: 83.49181602363565
- 类型: 欧氏斯皮尔曼
值: 82.66998443101066
- 类型: 主要得分
值: 82.18717939041626
- 类型: 曼哈顿皮尔逊
值: 83.50361267643626
- 类型: 曼哈顿斯皮尔曼
值: 82.68143951875724
- 类型: 皮尔逊
值: 82.29919479978703
- 类型: 斯皮尔曼
值: 82.18717939041626
任务:
类型: STS
支持语言:
基于FacebookAI/xlm-roberta-large的SentenceTransformer模型
🚀 这是从先前发布的omarelshehy/arabic-english-sts-matryoshka版本升级而来的v2.0版本。
📊 此版本在MTEB评估指标上表现更优,尤其是在**阿拉伯语-英语(ar-en)**指标上。但请勿仅依赖这些指标——亲自测试模型,看它是否符合您的需求!✅
模型描述
这是一个双语(阿拉伯语-英语)的sentence-transformers模型,基于FacebookAI/xlm-roberta-large微调而成。它将句子和段落映射到一个1024维的密集向量空间,可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等任务。
该模型能分别处理两种语言🌐,也能交叉处理,这为开发者和研究人员提供了灵活性,可以进一步构建阿拉伯语模型的应用!💡
俄罗斯套娃嵌入 🪆
该模型支持俄罗斯套娃嵌入,允许您根据任务需求将嵌入截断为更小的尺寸,以优化性能和内存使用。可用的截断尺寸包括:1024、768、512、256、128和64。
您可以根据用例选择合适的嵌入尺寸,确保资源管理的灵活性。
使用方法
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后加载此模型并运行推理:
from sentence_transformers import SentenceTransformer
matryoshka_dim = 786
model = SentenceTransformer("omarelshehy/arabic-english-sts-matryoshka-v2.0", truncate_dim=matryoshka_dim)
sentences = [
"她喜欢在窗边读书,外面下着雨。",
"كانت تستمتع بقراءة الكتب بجانب النافذة بينما كانت الأمطار تتساقط في الخارج.",
"在窗边读书是她最喜欢的事,尤其是在雨天。"
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}