模型介绍
内容详情
替代品
模型简介
该模型主要用于句子相似度计算和文本特征提取,通过加权平均和自然语言推理微调优化了多语言文本处理能力。
模型特点
多任务评估能力
在MTEB(多任务评估基准)的多种任务上表现良好,包括分类、聚类、检索等
多语言支持
支持多种语言的文本处理,包括英文、德文、西班牙文、法文、日文和中文
加权平均优化
采用加权平均方法优化句子表示,提高相似度计算准确性
NLI微调
通过自然语言推理(NLI)任务进行微调,增强语义理解能力
模型能力
句子相似度计算
文本特征提取
多语言文本分类
文档聚类
信息检索
搜索结果重排序
语义文本相似度评估
双语文本挖掘
使用案例
电子商务
亚马逊评论分类
对亚马逊多语言商品评论进行分类
英文评论分类准确率35.098%,德文24.516%,西班牙文29.098%
反事实分类
识别亚马逊评论中的反事实陈述
英文准确率65.88%,德文59.08%,日文56.42%
学术研究
arXiv论文聚类
对arXiv学术论文进行点对点和句子对句子聚类
点对点V度量34.74,句子对句子V度量24.68
biorxiv论文聚类
对biorxiv生物学论文进行聚类分析
点对点V度量28.93,句子对句子V度量23.08
问答系统
AskUbuntu重复问题检测
识别AskUbuntu论坛中的重复问题
平均精度52.63%,平均倒数排名65.76%
pipeline_tag: 句子相似度 tags:
- 句子转换器
- 特征提取
- 句子相似度
- 多任务评估基准 model-index:
- name: SGPT-125M加权平均NLI微调
results:
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊反事实分类
name: MTEB亚马逊反事实分类(英文)
config: 英文
split: 测试集
revision: 2d8a100785abf0ae21420d2a55b0c56e3e1ea996
metrics:
- type: 准确率 value: 65.88059701492537
- type: 平均精度 value: 28.685493163579785
- type: F1分数 value: 59.79951005816335
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊反事实分类
name: MTEB亚马逊反事实分类(德文)
config: 德文
split: 测试集
revision: 2d8a100785abf0ae21420d2a55b0c56e3e1ea996
metrics:
- type: 准确率 value: 59.07922912205568
- type: 平均精度 value: 73.91887421019034
- type: F1分数 value: 56.6316368658711
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊反事实分类
name: MTEB亚马逊反事实分类(英文扩展)
config: 英文扩展
split: 测试集
revision: 2d8a100785abf0ae21420d2a55b0c56e3e1ea996
metrics:
- type: 准确率 value: 64.91754122938531
- type: 平均精度 value: 16.360681214864226
- type: F1分数 value: 53.126592061523766
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊反事实分类
name: MTEB亚马逊反事实分类(日文)
config: 日文
split: 测试集
revision: 2d8a100785abf0ae21420d2a55b0c56e3e1ea996
metrics:
- type: 准确率 value: 56.423982869378996
- type: 平均精度 value: 12.143003571907899
- type: F1分数 value: 45.76363777987471
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊极性分类
name: MTEB亚马逊极性分类
config: 默认
split: 测试集
revision: 80714f8dcf8cefc218ef4f8c5a966dd83f75a0e1
metrics:
- type: 准确率 value: 74.938225
- type: 平均精度 value: 69.58187110320567
- type: F1分数 value: 74.72744058439321
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊多语言评论
name: MTEB亚马逊评论分类(英文)
config: 英文
split: 测试集
revision: c379a6705fec24a2493fa68e011692605f44e119
metrics:
- type: 准确率 value: 35.098
- type: F1分数 value: 34.73265651435726
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊多语言评论
name: MTEB亚马逊评论分类(德文)
config: 德文
split: 测试集
revision: c379a6705fec24a2493fa68e011692605f44e119
metrics:
- type: 准确率 value: 24.516
- type: F1分数 value: 24.21748200448397
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊多语言评论
name: MTEB亚马逊评论分类(西班牙文)
config: 西班牙文
split: 测试集
revision: c379a6705fec24a2493fa68e011692605f44e119
metrics:
- type: 准确率 value: 29.097999999999995
- type: F1分数 value: 28.620040162757093
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊多语言评论
name: MTEB亚马逊评论分类(法文)
config: 法文
split: 测试集
revision: c379a6705fec24a2493fa68e011692605f44e119
metrics:
- type: 准确率 value: 27.395999999999997
- type: F1分数 value: 27.146888644986284
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊多语言评论
name: MTEB亚马逊评论分类(日文)
config: 日文
split: 测试集
revision: c379a6705fec24a2493fa68e011692605f44e119
metrics:
- type: 准确率 value: 21.724
- type: F1分数 value: 21.37230564276654
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊多语言评论
name: MTEB亚马逊评论分类(中文)
config: 中文
split: 测试集
revision: c379a6705fec24a2493fa68e011692605f44e119
metrics:
- type: 准确率 value: 23.976
- type: F1分数 value: 23.741137981755482
- task:
type: 检索
dataset:
type: 论证分析
name: MTEB论证分析
config: 默认
split: 测试集
revision: 5b3e3697907184a9b77a3c99ee9ea1a9cbb1e4e3
metrics:
- type: 首位平均精度 value: 13.442000000000002
- type: 前十平均精度 value: 24.275
- type: 前百平均精度 value: 25.588
- type: 前千平均精度 value: 25.659
- type: 前三位平均精度 value: 20.092
- type: 前五位平均精度 value: 22.439999999999998
- type: 首位归一化折损累积增益 value: 13.442000000000002
- type: 前十归一化折损累积增益 value: 31.04
- type: 前百归一化折损累积增益 value: 37.529
- type: 前千归一化折损累积增益 value: 39.348
- type: 前三位归一化折损累积增益 value: 22.342000000000002
- type: 前五位归一化折损累积增益 value: 26.595999999999997
- type: 首位精确率 value: 13.442000000000002
- type: 前十精确率 value: 5.299
- type: 前百精确率 value: 0.836
- type: 前千精确率 value: 0.098
- type: 前三位精确率 value: 9.625
- type: 前五位精确率 value: 7.852
- type: 首位召回率 value: 13.442000000000002
- type: 前十召回率 value: 52.986999999999995
- type: 前百召回率 value: 83.64200000000001
- type: 前千召回率 value: 97.795
- type: 前三位召回率 value: 28.876
- type: 前五位召回率 value: 39.26
- task:
type: 聚类
dataset:
type: 多任务评估基准/arXiv聚类点对点
name: MTEB arXiv聚类点对点
config: 默认
split: 测试集
revision: 0bbdb47bcbe3a90093699aefeed338a0f28a7ee8
metrics:
- type: V度量 value: 34.742482477870766
- task:
type: 聚类
dataset:
type: 多任务评估基准/arXiv聚类句子对句子
name: MTEB arXiv聚类句子对句子
config: 默认
split: 测试集
revision: b73bd54100e5abfa6e3a23dcafb46fe4d2438dc3
metrics:
- type: V度量 value: 24.67870651472156
- task:
type: 聚类
dataset:
type: 模糊聚类句子对句子
name: MTEB模糊聚类句子对句子
config: 默认
split: 测试集
revision: 9bfff9a7f8f6dc6ffc9da71c48dd48b68696471d
metrics:
- type: V度量 value: 8.00311862863495
- task:
type: 重排序
dataset:
type: 多任务评估基准/AskUbuntu重复问题重排序
name: MTEB AskUbuntu重复问题
config: 默认
split: 测试集
revision: 4d853f94cd57d85ec13805aeeac3ae3e5eb4c49c
metrics:
- type: 平均精度 value: 52.63439984994702
- type: 平均倒数排名 value: 65.75704612408214
- task:
type: 语义文本相似度
dataset:
type: 多任务评估基准/BIOSSES语义文本相似度
name: MTEB BIOSSES
config: 默认
split: 测试集
revision: 9ee918f184421b6bd48b78f6c714d86546106103
metrics:
- type: 余弦相似度皮尔逊相关系数 value: 72.78000135012542
- type: 余弦相似度斯皮尔曼相关系数 value: 70.92812216947605
- type: 欧氏距离皮尔逊相关系数 value: 77.1169214949292
- type: 欧氏距离斯皮尔曼相关系数 value: 77.10175681583313
- type: 曼哈顿距离皮尔逊相关系数 value: 76.84527031837595
- type: 曼哈顿距离斯皮尔曼相关系数 value: 77.0704308008438
- task:
type: 双语文本挖掘
dataset:
type: 多任务评估基准/BUCC双语文本挖掘
name: MTEB BUCC (德英)
config: 德英
split: 测试集
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: 准确率 value: 1.0960334029227559
- type: F1分数 value: 1.0925539318023658
- type: 精确率 value: 1.0908141962421711
- type: 召回率 value: 1.0960334029227559
- task:
type: 双语文本挖掘
dataset:
type: 多任务评估基准/BUCC双语文本挖掘
name: MTEB BUCC (法英)
config: 法英
split: 测试集
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: 准确率 value: 0.02201188641866608
- type: F1分数 value: 0.02201188641866608
- type: 精确率 value: 0.02201188641866608
- type: 召回率 value: 0.02201188641866608
- task:
type: 双语文本挖掘
dataset:
type: 多任务评估基准/BUCC双语文本挖掘
name: MTEB BUCC (俄英)
config: 俄英
split: 测试集
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: 准确率 value: 0.0
- type: F1分数 value: 0.0
- type: 精确率 value: 0.0
- type: 召回率 value: 0.0
- task:
type: 双语文本挖掘
dataset:
type: 多任务评估基准/BUCC双语文本挖掘
name: MTEB BUCC (中英)
config: 中英
split: 测试集
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: 准确率 value: 0.0
- type: F1分数 value: 0.0
- type: 精确率 value: 0.0
- type: 召回率 value: 0.0
- task:
type: 分类
dataset:
type: 多任务评估基准/银行77分类
name: MTEB银行77分类
config: 默认
split: 测试集
revision: 44fa15921b4c889113cc5df03dd4901b49161ab7
metrics:
- type: 准确率 value: 74.67857142857142
- type: F1分数 value: 74.61743413995573
- task:
type: 聚类
dataset:
type: 多任务评估基准/biorxiv聚类点对点
name: MTEB biorxiv聚类点对点
config: 默认
split: 测试集
revision: 11d0121201d1f1f280e8cc8f3d98fb9c4d9f9c55
metrics:
- type: V度量 value: 28.93427045246491
- task:
type: 聚类
dataset:
type: 多任务评估基准/biorxiv聚类句子对句子
name: MTEB biorxiv聚类句子对句子
config: 默认
split: 测试集
revision: c0fab014e1bcb8d3a5e31b2088972a1e01547dc1
metrics:
- type: V度量 value: 23.080939123955474
- task:
type: 检索
dataset:
type: BeIR/CQADupstack
name: MTEB CQADupstack安卓检索
config: 默认
split: 测试集
revision: 2b9f5791698b5be7bc5e10535c8690f20043c3db
metrics:
- type: 首位平均精度 value: 18.221999999999998
- type: 前十平均精度 value: 24.506
- type: 前百平均精度 value: 25.611
- type: 前千平均精度 value: 25.758
- type: 前三位平均精度 value: 22.264999999999997
- type: 前五位平均精度 value: 23.698
- type: 首位归一化折损累积增益 value: 23.033
- type: 前十归一化折损累积增益 value: 28.719
- type: 前百归一化折损累积增益 value: 33.748
- type: 前千归一化折损累积增益 value: 37.056
- type: 前三位归一化折损累积增益 value: 25.240000000000002
- type: 前五位归一化折损累积增益 value: 27.12
- type: 首位精确率 value: 23.033
- type: 前十精确率 value: 5.408
- type: 前百精确率 value: 1.004
- type: 前千精确率
- task:
type: 分类
dataset:
type: 多任务评估基准/亚马逊反事实分类
name: MTEB亚马逊反事实分类(英文)
config: 英文
split: 测试集
revision: 2d8a100785abf0ae21420d2a55b0c56e3e1ea996
metrics:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文