模型介绍
内容详情
替代品
模型简介
该模型是基于句子转换器架构的中文文本嵌入模型,主要用于句子相似度计算、特征提取和相关文本任务
模型特点
中文优化
专门针对中文文本处理进行优化,在多个中文评估基准上表现优异
多任务支持
支持句子相似度计算、特征提取、文本分类等多种自然语言处理任务
高性能
在C-MTEB等多个中文评估基准上取得了优秀的性能指标
模型能力
句子相似度计算
文本特征提取
文本分类
文本聚类
信息检索
问答重排序
使用案例
智能客服
问题相似度匹配
识别用户问题与知识库问题的相似度
在CMedQA数据集上重排序任务达到89%以上的准确率
文本分析
文本聚类
将相似文档自动分组
在CLSClustering任务上V度量达到40%以上
信息检索
文档检索
根据查询返回相关文档
在CovidRetrieval任务上首位准确率达到68.97%
pipeline_tag: 句子相似度 tags:
- 句子转换器
- 特征提取
- 句子相似度
- 多语言文本嵌入基准 model-index:
- name: stella-mrl-large-zh-v3.5-1792d
results:
- task:
type: 语义文本相似度
dataset:
type: 中文多语言文本嵌入基准/蚂蚁金融问题匹配
name: MTEB AFQMC
config: 默认
split: 验证集
revision: 无
metrics:
- type: 余弦相似度皮尔逊 value: 54.33822814973567
- type: 余弦相似度斯皮尔曼 value: 58.85457316132848
- type: 欧氏距离皮尔逊 value: 57.57048145477383
- type: 欧氏距离斯皮尔曼 value: 58.854593263425095
- type: 曼哈顿距离皮尔逊 value: 57.55884028558309
- type: 曼哈顿距离斯皮尔曼 value: 58.84474216217465
- task:
type: 语义文本相似度
dataset:
type: 中文多语言文本嵌入基准/ATEC
name: MTEB ATEC
config: 默认
split: 测试集
revision: 无
metrics:
- type: 余弦相似度皮尔逊 value: 54.219652875381875
- type: 余弦相似度斯皮尔曼 value: 58.079506691583546
- type: 欧氏距离皮尔逊 value: 61.646366330471736
- type: 欧氏距离斯皮尔曼 value: 58.07951006894859
- type: 曼哈顿距离皮尔逊 value: 61.64460832085762
- type: 曼哈顿距离斯皮尔曼 value: 58.08054699349972
- task:
type: 文本分类
dataset:
type: 多语言文本嵌入基准/亚马逊多语种评论
name: MTEB 亚马逊评论分类 (中文)
config: 中文
split: 测试集
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: 准确率 value: 46.593999999999994
- type: F1分数 value: 44.73150848183217
- task:
type: 语义文本相似度
dataset:
type: 中文多语言文本嵌入基准/银行问题
name: MTEB BQ
config: 默认
split: 测试集
revision: 无
metrics:
- type: 余弦相似度皮尔逊 value: 69.16841007040091
- type: 余弦相似度斯皮尔曼 value: 71.04760904227217
- type: 欧氏距离皮尔逊 value: 69.95126084376611
- type: 欧氏距离斯皮尔曼 value: 71.04760904184589
- type: 曼哈顿距离皮尔逊 value: 69.92512024129407
- type: 曼哈顿距离斯皮尔曼 value: 71.02613161257672
- task:
type: 文本聚类
dataset:
type: 中文多语言文本嵌入基准/CLS聚类点对点
name: MTEB CLS聚类点对点
config: 默认
split: 测试集
revision: 无
metrics:
- type: V度量 value: 43.032332399653306
- task:
type: 文本聚类
dataset:
type: 中文多语言文本嵌入基准/CLS聚类句对句
name: MTEB CLS聚类句对句
config: 默认
split: 测试集
revision: 无
metrics:
- type: V度量 value: 40.41603958793544
- task:
type: 重排序
dataset:
type: 中文多语言文本嵌入基准/CMedQAv1-重排序
name: MTEB CMedQAv1
config: 默认
split: 测试集
revision: 无
metrics:
- type: 平均精度 value: 89.33487924447584
- type: 平均倒数排名 value: 91.34623015873017
- task:
type: 重排序
dataset:
type: 中文多语言文本嵌入基准/CMedQAv2-重排序
name: MTEB CMedQAv2
config: 默认
split: 测试集
revision: 无
metrics:
- type: 平均精度 value: 89.17795270698021
- type: 平均倒数排名 value: 91.0956746031746
- task:
type: 检索
dataset:
type: 中文多语言文本嵌入基准/Cmedqa检索
name: MTEB Cmedqa检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均精度 value: 26.809
- type: 前十平均精度 value: 39.906000000000006
- type: 前百平均精度 value: 41.858000000000004
- type: 前千平均精度 value: 41.954
- type: 前三平均精度 value: 35.435
- type: 前五平均精度 value: 37.978
- type: 首位平均倒数排名 value: 40.660000000000004
- type: 前十平均倒数排名 value: 48.787000000000006
- type: 前百平均倒数排名 value: 49.796
- type: 前千平均倒数排名 value: 49.832
- type: 前三平均倒数排名 value: 46.166000000000004
- type: 前五平均倒数排名 value: 47.675
- type: 首位归一化折损累积增益 value: 40.660000000000004
- type: 前十归一化折损累积增益 value: 46.614
- type: 前百归一化折损累积增益 value: 54.037
- type: 前千归一化折损累积增益 value: 55.654
- type: 前三归一化折损累积增益 value: 41.032000000000004
- type: 前五归一化折损累积增益 value: 43.464999999999996
- type: 首位精确率 value: 40.660000000000004
- type: 前十精确率 value: 10.35
- type: 前百精确率 value: 1.6340000000000001
- type: 前千精确率 value: 0.184
- type: 前三精确率 value: 23.122
- type: 前五精确率 value: 16.944
- type: 首位召回率 value: 26.809
- type: 前十召回率 value: 57.474000000000004
- type: 前百召回率 value: 87.976
- type: 前千召回率 value: 98.74199999999999
- type: 前三召回率 value: 40.819
- type: 前五召回率 value: 48.175000000000004
- task:
type: 句子对分类
dataset:
type: 中文多语言文本嵌入基准/中文自然语言推理
name: MTEB 中文自然语言推理
config: 默认
split: 验证集
revision: 无
metrics:
- type: 余弦相似度准确率 value: 83.4996993385448
- type: 余弦相似度平均精度 value: 90.66238348446467
- type: 余弦相似度F1分数 value: 84.39077936333699
- type: 余弦相似度精确率 value: 79.53651975998345
- type: 余弦相似度召回率 value: 89.87608136544307
- type: 点积准确率 value: 83.4996993385448
- type: 点积平均精度 value: 90.64660919236363
- type: 点积F1分数 value: 84.39077936333699
- type: 点积精确率 value: 79.53651975998345
- type: 点积召回率 value: 89.87608136544307
- type: 欧氏距离准确率 value: 83.4996993385448
- type: 欧氏距离平均精度 value: 90.66238269557765
- type: 欧氏距离F1分数 value: 84.39077936333699
- type: 欧氏距离精确率 value: 79.53651975998345
- type: 欧氏距离召回率 value: 89.87608136544307
- type: 曼哈顿距离准确率 value: 83.35538184004811
- type: 曼哈顿距离平均精度 value: 90.6446013420276
- type: 曼哈顿距离F1分数 value: 84.37465196569775
- type: 曼哈顿距离精确率 value: 80.5614632071459
- type: 曼哈顿距离召回率 value: 88.56675239653963
- type: 最高准确率 value: 83.4996993385448
- type: 最高平均精度 value: 90.66238348446467
- type: 最高F1分数 value: 84.39077936333699
- task:
type: 检索
dataset:
type: 中文多语言文本嵌入基准/新冠疫情检索
name: MTEB 新冠疫情检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均精度 value: 68.967
- type: 前十平均精度 value: 77.95299999999999
- type: 前百平均精度 value: 78.213
- type: 前千平均精度 value: 78.21900000000001
- type: 前三平均精度 value: 76.30799999999999
- type: 前五平均精度 value: 77.316
- type: 首位平均倒数排名 value: 69.125
- type: 前十平均倒数排名 value: 77.886
- type: 前百平均倒数排名 value: 78.141
- type: 前千平均倒数排名 value: 78.147
- type: 前三平均倒数排名 value: 76.291
- type: 前五平均倒数排名 value: 77.29700000000001
- type: 首位归一化折损累积增益 value: 69.231
- type: 前十归一化折损累积增益 value: 81.867
- type: 前百归一化折损累积增益 value: 82.982
- type: 前千归一化折损累积增益 value: 83.12
- type: 前三归一化折损累积增益 value: 78.592
- type: 前五归一化折损累积增益 value: 80.39
- type: 首位精确率 value: 69.231
- type: 前十精确率 value: 9.494
- type: 前百精确率 value: 0.9990000000000001
- type: 前千精确率 value: 0.101
- type: 前三精确率 value: 28.591
- type: 前五精确率 value: 18.061
- type: 首位召回率 value: 68.967
- type: 前十召回率 value: 93.941
- type: 前百召回率 value: 98.84100000000001
- type: 前千召回率 value: 99.895
- type: 前三召回率 value: 85.142
- type: 前五召回率 value: 89.46300000000001
- task:
type: 检索
dataset:
type: 中文多语言文本嵌入基准/DuRetrieval
name: MTEB DuRetrieval
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均精度 value: 25.824
- type: 前十平均精度 value: 79.396
- type: 前百平均精度 value: 82.253
- type: 前千平均精度 value: 82.295
- type: 前三平均精度 value: 54.83
- type: 前五平均精度 value: 69.536
- type: 首位平均倒数排名 value: 89.7
- type: 前十平均倒数排名 value: 92.929
- type: 前百平均倒数排名 value: 93.013
- type: 前千平均倒数排名 value: 93.015
- type: 前三平均倒数排名 value: 92.658
- type: 前五平均倒数排名 value: 92.841
- type: 首位归一化折损累积增益 value: 89.7
- type: 前十归一化折损累积增益 value: 86.797
- type: 前百归一化折损累积增益 value: 89.652
- type: 前千归一化折损累积增益 value: 90.047
- type: 前三归一化折损累积增益 value: 85.651
- type: 前五归一化折损累积增益 value: 84.747
- type: 首位精确率 value: 89.7
- type: 前十精确率 value: 41.61
- type: 前百精确率 value: 4.788
- type: 前千精确率 value: 0.488
- type: 前三精确率 value: 76.833
- type: 前五精确率 value: 65.14
- type: 首位召回率 value: 25.824
- type: 前十召回率 value: 87.896
- type: 前百召回率 value: 97.221
- type: 前千召回率 value: 99.29599999999999
- type: 前三召回率 value: 57.178
- type: 前五召回率 value: 74.348
- task:
type: 检索
dataset:
type: 中文多语言文本嵌入基准/电商检索
name: MTEB 电商检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均精度 value: 52.5
- type: 前十平均精度 value: 63.04
- type: 前百平均精度 value: 63.548
- type: 前千平均精度 value: 63.56
- type: 前三平均精度 value: 60.483
- type: 前五平均精度 value: 62.22800000000001
- type: 首位平均倒数排名 value: 52.5
- type: 前十平均倒数排名 value: 63.04
- type: 前百平均倒数排名 value: 63.548
- type: 前千平均倒数排名 value: 63.56
- type: 前三平均倒数排名 value: 60.483
- type: 前五平均倒数排名 value: 62.22800000000001
- type: 首位归一化折损累积增益 value: 52.5
- type: 前十归一化折损累积增益 value: 68.099
- type: 前百归一化折损累积增益 value: 70.48400000000001
- type: 前千归一化折损累积增益 value: 70.769
- task:
type: 语义文本相似度
dataset:
type: 中文多语言文本嵌入基准/蚂蚁金融问题匹配
name: MTEB AFQMC
config: 默认
split: 验证集
revision: 无
metrics:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文