E

E5 All Nli Triplet Matryoshka

由 Omartificial-Intelligence-Space 开发
这是一个基于intfloat/multilingual-e5-small微调的sentence-transformers模型,用于将句子和段落映射到384维密集向量空间,支持语义文本相似度、语义搜索等任务。
下载量 14
发布时间 : 7/15/2024
模型介绍
内容详情
替代品

模型简介

该模型专门用于处理句子和段落的语义表示,能够生成高质量的嵌入向量,适用于多种自然语言处理任务。

模型特点

多语言支持
基于multilingual-e5-small模型,支持多种语言的文本处理
高效语义表示
将文本转换为384维密集向量,捕捉深层语义信息
MatryoshkaLoss训练
使用MatryoshkaLoss和MultipleNegativesRankingLoss进行训练,优化不同维度下的表示能力
高性能
在多个评估数据集上表现出色,斯皮尔曼余弦相似度最高达0.7972

模型能力

计算句子相似度
语义搜索
文本特征提取
文本分类
文本聚类
复述挖掘

使用案例

信息检索
文档检索
根据查询语义快速检索相关文档
在MTEB MIRACLRetrievalHardNegatives (ar)数据集上得分为33.441
问答系统
匹配用户问题与知识库中的答案
在MTEB MLQARetrieval (ara-ara)数据集上得分为64.488
文本分析
语义相似度计算
比较两个句子或段落的语义相似程度
在sts-test-384数据集上斯皮尔曼余弦相似度为0.7972
文本聚类
将语义相似的文本自动分组