C
Cloudy Large Zh
由 akarum 开发
cloudy-large-zh 是一个中文句子相似度计算模型,专注于特征提取和句子相似度任务,支持多种检索和重排序任务。
下载量 56
发布时间 : 12/25/2023
模型介绍
内容详情
替代品
模型简介
该模型主要用于中文文本的句子相似度计算和特征提取,适用于多种信息检索和重排序场景,特别是在医疗和电商领域表现优异。
模型特点
高性能中文句子相似度计算
在多个中文数据集上表现出色,特别是在医疗和电商领域的检索任务中。
多任务支持
支持句子相似度、特征提取、重排序和检索等多种任务。
无需指令
在检索任务中不需要额外的指令,简化了使用流程。
模型能力
句子相似度计算
特征提取
重排序
信息检索
使用案例
医疗领域
医疗问答检索
用于医疗问答系统的检索和重排序任务,提高回答的准确性和相关性。
在CMedQAv1和CMedQAv2数据集上平均准确率分别达到86.10%和86.95%。
新冠信息检索
用于新冠相关信息的检索,快速找到最相关的医疗信息。
首位平均准确率达到74.76%,前十平均准确率达到82.60%。
电商领域
商品检索
用于电商平台的商品检索,提升用户搜索体验。
首位平均准确率达到52.30%,前十平均准确率达到62.15%。
视频检索
视频内容检索
用于视频内容的检索和相似度计算。
首位平均准确率达到59.50%,前十平均准确率达到69.53%。
pipeline_tag: 句子相似度 tags:
- 句子转换器
- 特征提取
- 句子相似度
- 多任务评估基准 model-index:
- name: cloudy-large-zh
results:
- task:
type: 重排序
dataset:
type: C-MTEB/CMedQAv1-重排序
name: MTEB CMedQAv1
config: 默认
split: 测试集
revision: 无
metrics:
- type: 平均准确率(map) value: 86.10362876754219
- type: 平均倒数排名(mrr) value: 88.77880952380951
- task:
type: 重排序
dataset:
type: C-MTEB/CMedQAv2-重排序
name: MTEB CMedQAv2
config: 默认
split: 测试集
revision: 无
metrics:
- type: 平均准确率(map) value: 86.94664825874587
- type: 平均倒数排名(mrr) value: 89.47257936507937
- task:
type: 检索
dataset:
type: C-MTEB/Cmedqa检索
name: MTEB Cmedqa检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 25.296999999999997
- type: 前十平均准确率(map@10) value: 37.159
- type: 前百平均准确率(map@100) value: 39.016
- type: 前千平均准确率(map@1000) value: 39.134
- type: 前三位平均准确率(map@3) value: 33.248
- type: 前五位平均准确率(map@5) value: 35.371
- type: 首位平均倒数排名(mrr@1) value: 38.435
- type: 前十平均倒数排名(mrr@10) value: 46.235
- type: 前百平均倒数排名(mrr@100) value: 47.265
- type: 前千平均倒数排名(mrr@1000) value: 47.308
- type: 前三位平均倒数排名(mrr@3) value: 43.828
- type: 前五位平均倒数排名(mrr@5) value: 45.21
- type: 首位归一化折损累积增益(ndcg@1) value: 38.435
- type: 前十归一化折损累积增益(ndcg@10) value: 43.578
- type: 前百归一化折损累积增益(ndcg@100) value: 50.995000000000005
- type: 前千归一化折损累积增益(ndcg@1000) value: 53.012
- type: 前三位归一化折损累积增益(ndcg@3) value: 38.667
- type: 前五位归一化折损累积增益(ndcg@5) value: 40.657
- type: 首位精确率(precision@1) value: 38.435
- type: 前十精确率(precision@10) value: 9.607000000000001
- type: 前百精确率(precision@100) value: 1.557
- type: 前千精确率(precision@1000) value: 0.182
- type: 前三位精确率(precision@3) value: 21.714
- type: 前五位精确率(precision@5) value: 15.634
- type: 首位召回率(recall@1) value: 25.296999999999997
- type: 前十召回率(recall@10) value: 53.408
- type: 前百召回率(recall@100) value: 84.202
- type: 前千召回率(recall@1000) value: 97.61
- type: 前三位召回率(recall@3) value: 38.533
- type: 前五位召回率(recall@5) value: 44.927
- task:
type: 检索
dataset:
type: C-MTEB/新冠检索
name: MTEB 新冠检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 74.763
- type: 前十平均准确率(map@10) value: 82.604
- type: 前百平均准确率(map@100) value: 82.795
- type: 前千平均准确率(map@1000) value: 82.798
- type: 前三位平均准确率(map@3) value: 81.437
- type: 前五位平均准确率(map@5) value: 82.097
- type: 首位平均倒数排名(mrr@1) value: 74.816
- type: 前十平均倒数排名(mrr@10) value: 82.601
- type: 前百平均倒数排名(mrr@100) value: 82.787
- type: 前千平均倒数排名(mrr@1000) value: 82.78999999999999
- type: 前三位平均倒数排名(mrr@3) value: 81.472
- type: 前五位平均倒数排名(mrr@5) value: 82.146
- type: 首位归一化折损累积增益(ndcg@1) value: 74.921
- type: 前十归一化折损累积增益(ndcg@10) value: 85.83
- type: 前百归一化折损累积增益(ndcg@100) value: 86.655
- type: 前千归一化折损累积增益(ndcg@1000) value: 86.748
- type: 前三位归一化折损累积增益(ndcg@3) value: 83.497
- type: 前五位归一化折损累积增益(ndcg@5) value: 84.696
- type: 首位精确率(precision@1) value: 74.921
- type: 前十精确率(precision@10) value: 9.663
- type: 前百精确率(precision@100) value: 1.0030000000000001
- type: 前千精确率(precision@1000) value: 0.101
- type: 前三位精确率(precision@3) value: 29.996000000000002
- type: 前五位精确率(precision@5) value: 18.609
- type: 首位召回率(recall@1) value: 74.763
- type: 前十召回率(recall@10) value: 95.627
- type: 前百召回率(recall@100) value: 99.262
- type: 前千召回率(recall@1000) value: 100.0
- type: 前三位召回率(recall@3) value: 89.357
- type: 前五位召回率(recall@5) value: 92.255
- task:
type: 检索
dataset:
type: C-MTEB/Du检索
name: MTEB Du检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 26.021
- type: 前十平均准确率(map@10) value: 78.561
- type: 前百平均准确率(map@100) value: 81.291
- type: 前千平均准确率(map@1000) value: 81.34400000000001
- type: 前三位平均准确率(map@3) value: 54.55799999999999
- type: 前五位平均准确率(map@5) value: 68.804
- type: 首位平均倒数排名(mrr@1) value: 89.8
- type: 前十平均倒数排名(mrr@10) value: 92.905
- type: 前百平均倒数排名(mrr@100) value: 92.976
- type: 前千平均倒数排名(mrr@1000) value: 92.979
- type: 前三位平均倒数排名(mrr@3) value: 92.608
- type: 前五位平均倒数排名(mrr@5) value: 92.783
- type: 首位归一化折损累积增益(ndcg@1) value: 89.8
- type: 前十归一化折损累积增益(ndcg@10) value: 86.203
- type: 前百归一化折损累积增益(ndcg@100) value: 88.955
- type: 前千归一化折损累积增益(ndcg@1000) value: 89.442
- type: 前三位归一化折损累积增益(ndcg@3) value: 85.163
- type: 前五位归一化折损累积增益(ndcg@5) value: 84.057
- type: 首位精确率(precision@1) value: 89.8
- type: 前十精确率(precision@10) value: 41.175
- type: 前百精确率(precision@100) value: 4.744000000000001
- type: 前千精确率(precision@1000) value: 0.486
- type: 前三位精确率(precision@3) value: 76.283
- type: 前五位精确率(precision@5) value: 64.41
- type: 首位召回率(recall@1) value: 26.021
- type: 前十召回率(recall@10) value: 87.25
- type: 前百召回率(recall@100) value: 96.154
- type: 前千召回率(recall@1000) value: 98.615
- type: 前三位召回率(recall@3) value: 56.830999999999996
- type: 前五位召回率(recall@5) value: 73.518
- task:
type: 检索
dataset:
type: C-MTEB/电商检索
name: MTEB 电商检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 52.300000000000004
- type: 前十平均准确率(map@10) value: 62.149
- type: 前百平均准确率(map@100) value: 62.719
- type: 前千平均准确率(map@1000) value: 62.73
- type: 前三位平均准确率(map@3) value: 59.767
- type: 前五位平均准确率(map@5) value: 61.232
- type: 首位平均倒数排名(mrr@1) value: 52.300000000000004
- type: 前十平均倒数排名(mrr@10) value: 62.149
- type: 前百平均倒数排名(mrr@100) value: 62.719
- type: 前千平均倒数排名(mrr@1000) value: 62.73
- type: 前三位平均倒数排名(mrr@3) value: 59.767
- type: 前五位平均倒数排名(mrr@5) value: 61.232
- type: 首位归一化折损累积增益(ndcg@1) value: 52.300000000000004
- type: 前十归一化折损累积增益(ndcg@10) value: 66.99300000000001
- type: 前百归一化折损累积增益(ndcg@100) value: 69.672
- type: 前千归一化折损累积增益(ndcg@1000) value: 69.95400000000001
- type: 前三位归一化折损累积增益(ndcg@3) value: 62.166
- type: 前五位归一化折损累积增益(ndcg@5) value: 64.804
- type: 首位精确率(precision@1) value: 52.300000000000004
- type: 前十精确率(precision@10) value: 8.219999999999999
- type: 前百精确率(precision@100) value: 0.9450000000000001
- type: 前千精确率(precision@1000) value: 0.097
- type: 前三位精确率(precision@3) value: 23.033
- type: 前五位精确率(precision@5) value: 15.1
- type: 首位召回率(recall@1) value: 52.300000000000004
- type: 前十召回率(recall@10) value: 82.19999999999999
- type: 前百召回率(recall@100) value: 94.5
- type: 前千召回率(recall@1000) value: 96.7
- type: 前三位召回率(recall@3) value: 69.1
- type: 前五位召回率(recall@5) value: 75.5
- task:
type: 重排序
dataset:
type: C-MTEB/Mmarco-重排序
name: MTEB MMarco重排序
config: 默认
split: 开发集
revision: 无
metrics:
- type: 平均准确率(map) value: 24.260352944026806
- type: 平均倒数排名(mrr) value: 22.69484126984127
- task:
type: 检索
dataset:
type: C-MTEB/MMarco检索
name: MTEB MMarco检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 64.888
- type: 前十平均准确率(map@10) value: 73.921
- type: 前百平均准确率(map@100) value: 74.28099999999999
- type: 前千平均准确率(map@1000) value: 74.295
- type: 前三位平均准确率(map@3) value: 72.04
- type: 前五位平均准确率(map@5) value: 73.207
- type: 首位平均倒数排名(mrr@1) value: 67.092
- type: 前十平均倒数排名(mrr@10) value: 74.547
- type: 前百平均倒数排名(mrr@100) value: 74.862
- type: 前千平均倒数排名(mrr@1000) value: 74.875
- type: 前三位平均倒数排名(mrr@3) value: 72.908
- type: 前五位平均倒数排名(mrr@5) value: 73.936
- type: 首位归一化折损累积增益(ndcg@1) value: 67.092
- type: 前十归一化折损累积增益(ndcg@10) value: 77.687
- type: 前百归一化折损累积增益(ndcg@100) value: 79.24600000000001
- type: 前千归一化折损累积增益(ndcg@1000) value: 79.60000000000001
- type: 前三位归一化折损累积增益(ndcg@3) value: 74.124
- type: 前五位归一化折损累积增益(ndcg@5) value: 76.098
- type: 首位精确率(precision@1) value: 67.092
- type: 前十精确率(precision@10) value: 9.424000000000001
- type: 前百精确率(precision@100) value: 1.019
- type: 前千精确率(precision@1000) value: 0.105
- type: 前三位精确率(precision@3) value: 27.927000000000003
- type: 前五位精确率(precision@5) value: 17.797
- type: 首位召回率(recall@1) value: 64.888
- type: 前十召回率(recall@10) value: 88.672
- type: 前百召回率(recall@100) value: 95.599
- type: 前千召回率(recall@1000) value: 98.337
- type: 前三位召回率(recall@3) value: 79.27499999999999
- type: 前五位召回率(recall@5) value: 83.96000000000001
- task:
type: 检索
dataset:
type: C-MTEB/医疗检索
name: MTEB 医疗检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 55.50000000000001
- type: 前十平均准确率(map@10) value: 61.316
- type: 前百平均准确率(map@100) value: 61.832
- type: 前千平均准确率(map@1000) value: 61.867000000000004
- type: 前三位平均准确率(map@3) value: 59.9
- type: 前五位平均准确率(map@5) value: 60.685
- type: 首位平均倒数排名(mrr@1) value: 55.7
- type: 前十平均倒数排名(mrr@10) value: 61.416000000000004
- type: 前百平均倒数排名(mrr@100) value: 61.931999999999995
- type: 前千平均倒数排名(mrr@1000) value: 61.967000000000006
- type: 前三位平均倒数排名(mrr@3) value: 60.0
- type: 前五位平均倒数排名(mrr@5) value: 60.785
- type: 首位归一化折损累积增益(ndcg@1) value: 55.50000000000001
- type: 前十归一化折损累积增益(ndcg@10) value: 64.228
- type: 前百归一化折损累积增益(ndcg@100) value: 67.04599999999999
- type: 前千归一化折损累积增益(ndcg@1000) value: 68.176
- type: 前三位归一化折损累积增益(ndcg@3) value: 61.314
- type: 前五位归一化折损累积增益(ndcg@5) value: 62.743
- type: 首位精确率(precision@1) value: 55.50000000000001
- type: 前十精确率(precision@10) value: 7.340000000000001
- type: 前百精确率(precision@100) value: 0.873
- type: 前千精确率(precision@1000) value: 0.097
- type: 前三位精确率(precision@3) value: 21.8
- type: 前五位精确率(precision@5) value: 13.780000000000001
- type: 首位召回率(recall@1) value: 55.50000000000001
- type: 前十召回率(recall@10) value: 73.4
- type: 前百召回率(recall@100) value: 87.3
- type: 前千召回率(recall@1000) value: 96.6
- type: 前三位召回率(recall@3) value: 65.4
- type: 前五位召回率(recall@5) value: 68.89999999999999
- task:
type: 重排序
dataset:
type: C-MTEB/T2重排序
name: MTEB T2重排序
config: 默认
split: 开发集
revision: 无
metrics:
- type: 平均准确率(map) value: 66.83154421352779
- type: 平均倒数排名(mrr) value: 76.27995669041708
- task:
type: 检索
dataset:
type: C-MTEB/T2检索
name: MTEB T2检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 28.303
- type: 前十平均准确率(map@10) value: 76.943
- type: 前百平均准确率(map@100) value: 80.585
- type: 前千平均准确率(map@1000) value: 80.657
- type: 前三位平均准确率(map@3) value: 54.818999999999996
- type: 前五位平均准确率(map@5) value: 66.854
- type: 首位平均倒数排名(mrr@1) value: 90.742
- type: 前十平均倒数排名(mrr@10) value: 93.496
- type: 前百平均倒数排名(mrr@100) value: 93.55799999999999
- type: 前千平均倒数排名(mrr@1000) value: 93.56
- type: 前三位平均倒数排名(mrr@3) value: 93.083
- type: 前五位平均倒数排名(mrr@5) value: 93.349
- type: 首位归一化折损累积增益(ndcg@1) value: 90.742
- type: 前十归一化折损累积增益(ndcg@10) value: 84.94
- type: 前百归一化折损累积增益(ndcg@100) value: 88.616
- type: 前千归一化折损累积增益(ndcg@1000) value: 89.25
- type: 前三位归一化折损累积增益(ndcg@3) value: 86.58200000000001
- type: 前五位归一化折损累积增益(ndcg@5) value: 85.018
- type: 首位精确率(precision@1) value: 90.742
- type: 前十精确率(precision@10) value: 41.507
- type: 前百精确率(precision@100) value: 4.984999999999999
- type: 前千精确率(precision@1000) value: 0.515
- type: 前三位精确率(precision@3) value: 75.101
- type: 前五位精确率(precision@5) value: 62.543000000000006
- type: 首位召回率(recall@1) value: 28.303
- type: 前十召回率(recall@10) value: 83.895
- type: 前百召回率(recall@100) value: 95.537
- type: 前千召回率(recall@1000) value: 98.558
- type: 前三位召回率(recall@3) value: 56.679
- type: 前五位召回率(recall@5) value: 70.535
- task:
type: 检索
dataset:
type: C-MTEB/视频检索
name: MTEB 视频检索
config: 默认
split: 开发集
revision: 无
metrics:
- type: 首位平均准确率(map@1) value: 59.5
- type: 前十平均准确率(map@10) value: 69.53
- type: 前百平均准确率(map@100) value: 69.976
- type: 前千平均准确率(map@1000) value: 69.99300000000001
- type: 前三位平均准确率(map@3) value: 67.85
- type: 前五位平均准确率(map@5) value: 68.83
- type: 首位平均倒数排名(mrr@1) value: 59.5
- type: 前十平均倒数排名(mrr@10) value: 69.53
- type: 前百平均倒数排名(mrr@100) value: 69.976
- type: 前千平均倒数排名(mrr@1000) value: 69.99300000000001
- type: 前三位平均倒数排名(mrr@3) value: 67.85
- type: 前五位平均倒数排名(mrr@5) value: 68.83
- type: 首位归一化折损累积增益(ndcg@1) value: 59.5
- type: 前十归一化折损累积增益(ndcg@10) value: 73.855
- type: 前百归一化折损累积增益(ndcg@100) value: 75.831
- type: 前千归一化折损累积增益(ndcg@1000) value: 76.227
- type: 前三位归一化折损累积增益(ndcg@3) value: 70.418
- type: 前五位归一化折损累积增益(ndcg@5) value: 72.18599999999999
- type: 首位精确率(precision@1) value: 59.5
- type: 前十精确率(precision@10) value: 8.72
- type: 前百精确率(precision@100) value: 0.96
- type: 前千精确率(precision@1000) value: 0.099
- type: 前三位精确率(precision@3) value: 25.933
- type: 前五位精确率(precision@5) value: 16.42
- type: 首位召回率(recall@1) value: 59.5
- type: 前十召回率(recall@10) value: 87.2
- type: 前百召回率(recall@100) value: 96.0
- type: 前千召回率(recall@1000) value: 99.0
- type: 前三位召回率(recall@3) value: 77.8
- type: 前五位召回率(recall@5) value: 82.1
- task:
type: 重排序
dataset:
type: C-MTEB/CMedQAv1-重排序
name: MTEB CMedQAv1
config: 默认
split: 测试集
revision: 无
metrics:
模型名称 | 维度 | 序列长度 | 语言 | 检索是否需要指令? |
---|---|---|---|---|
cloudy-large-zh | 1024 | 1024 | 中文 | 否 |
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文