S
Snowflake Arctic Embed M V2.0 Cpu
由 cnmoro 开发
Snowflake Arctic Embed M v2.0 是一个多语言句子嵌入模型,专注于句子相似度任务,支持超过50种语言。
下载量 502
发布时间 : 1/22/2025
模型介绍
内容详情
替代品
模型简介
该模型是一个句子转换器,用于特征提取和句子相似度计算,在MTEB基准测试中表现良好。
模型特点
多语言支持
支持超过50种语言的句子嵌入计算
高性能
在MTEB基准测试中表现优异
句子相似度
专门优化用于计算句子之间的相似度
模型能力
句子嵌入
特征提取
句子相似度计算
多语言处理
使用案例
文本检索
语义搜索
基于语义而非关键词的文档检索
分类任务
情感分析
基于句子嵌入的情感分类
在亚马逊评论分类任务中达到33.766%准确率
问答系统
问答匹配
计算问题和候选答案之间的相似度
pipeline_tag: 句子相似度 tags:
- 句子转换器
- 特征提取
- 句子相似度
- MTEB
- Arctic
- Snowflake-Arctic-Embed
- Transformers.js license: Apache-2.0 language:
- 南非荷兰语
- 阿拉伯语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 加泰罗尼亚语
- 宿务语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 加利西亚语
- 古吉拉特语
- 希伯来语
- 印地语
- 克罗地亚语
- 海地克里奥尔语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 吉尔吉斯语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 旁遮普语
- 波兰语
- 葡萄牙语
- 克丘亚语
- 罗马尼亚语
- 俄语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 越南语
- 约鲁巴语
- 中文 model-index:
- name: snowflake-arctic-embed-m-v2.0
results:
- dataset:
config: en-ext
name: MTEB 亚马逊反事实分类 (en-ext)
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
split: 测试集
type: mteb/amazon_counterfactual
metrics:
- type: 准确率 value: 66.6867
- type: F1分数 value: 55.0373
- type: 加权F1分数 value: 73.07430000000001
- type: 平均精度 value: 18.077399999999997
- type: 加权平均精度 value: 18.077399999999997
- type: 主要得分 value: 66.6867 task: type: 分类
- dataset:
config: en
name: MTEB 亚马逊反事实分类 (en)
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
split: 测试集
type: mteb/amazon_counterfactual
metrics:
- type: 准确率 value: 66.194
- type: F1分数 value: 60.854299999999995
- type: 加权F1分数 value: 69.57339999999999
- type: 平均精度 value: 30.279099999999996
- type: 加权平均精度 value: 30.279099999999996
- type: 主要得分 value: 66.194 task: type: 分类
- dataset:
config: default
name: MTEB 亚马逊极性分类 (default)
revision: e2d317d38cd51312af73b3d32a06d1a08b442046
split: 测试集
type: mteb/amazon_polarity
metrics:
- type: 准确率 value: 70.3589
- type: F1分数 value: 70.0409
- type: 加权F1分数 value: 70.0409
- type: 平均精度 value: 64.81949999999999
- type: 加权平均精度 value: 64.81949999999999
- type: 主要得分 value: 70.3589 task: type: 分类
- dataset:
config: en
name: MTEB 亚马逊评论分类 (en)
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
split: 测试集
type: mteb/amazon_reviews_multi
metrics:
- type: 准确率 value: 33.766
- type: F1分数 value: 33.3656
- type: 加权F1分数 value: 33.3656
- type: 主要得分 value: 33.766 task: type: 分类
- dataset:
config: default
name: MTEB ArguAna (default)
revision: c22ab2a51041ffd869aaddef7af8d8215647e41a
split: 测试集
type: mteb/arguana
metrics:
- type: NDCG@1 value: 33.144
- type: NDCG@3 value: 47.909
- type: NDCG@5 value: 52.932
- type: NDCG@10 value: 58.011
- type: NDCG@20 value: 60.168
- type: NDCG@100 value: 60.928000000000004
- type: NDCG@1000 value: 61.046
- type: MAP@1 value: 33.144
- type: MAP@3 value: 44.156
- type: MAP@5 value: 46.951
- type: MAP@10 value: 49.071999999999996
- type: MAP@20 value: 49.692
- type: MAP@100 value: 49.809
- type: MAP@1000 value: 49.815
- type: 召回率@1 value: 33.144
- type: 召回率@3 value: 58.819
- type: 召回率@5 value: 70.982
- type: 召回率@10 value: 86.558
- type: 召回率@20 value: 94.879
- type: 召回率@100 value: 98.791
- type: 召回率@1000 value: 99.644
- type: 精确率@1 value: 33.144
- type: 精确率@3 value: 19.606
- type: 精确率@5 value: 14.196
- type: 精确率@10 value: 8.656
- type: 精确率@20 value: 4.744000000000001
- type: 精确率@100 value: 0.988
- type: 精确率@1000 value: 0.1
- type: MRR@1 value: 33.4993
- type: MRR@3 value: 44.393100000000004
- type: MRR@5 value: 47.131299999999996
- type: MRR@10 value: 49.264599999999994
- type: MRR@20 value: 49.8707
- type: MRR@100 value: 49.987700000000004
- type: MRR@1000 value: 49.993700000000004
- type: NAUC_NDCG@1_max value: -10.8287
- type: NAUC_NDCG@1_std value: -17.1177
- type: NAUC_NDCG@1_diff1 value: 14.4508
- type: NAUC_NDCG@3_max value: -7.7004
- type: NAUC_NDCG@3_std value: -16.6705
- type: NAUC_NDCG@3_diff1 value: 10.0448
- type: NAUC_NDCG@5_max value: -7.0436
- type: NAUC_NDCG@5_std value: -15.8744
- type: NAUC_NDCG@5_diff1 value: 9.1132
- type: NAUC_NDCG@10_max value: -7.4729
- type: NAUC_NDCG@10_std value: -14.9349
- type: NAUC_NDCG@10_diff1 value: 8.527700000000001
- type: NAUC_NDCG@20_max value: -6.997000000000001
- type: NAUC_NDCG@20_std value: -14.688399999999998
- type: NAUC_NDCG@20_diff1 value: 9.7605
- type: NAUC_NDCG@100_max value: -7.5599
- type: NAUC_NDCG@100_std value: -15.0565
- type: NAUC_NDCG@100_diff1 value: 10.2688
- type: NAUC_NDCG@1000_max value: -7.675800000000001
- type: NAUC_NDCG@1000_std value: -15.223500000000001
- type: NAUC_NDCG@1000_diff1 value: 10.32
- type: NAUC_MAP@1_max value: -10.8287
- type: NAUC_MAP@1_std value: -17.1177
- type: NAUC_MAP@1_diff1 value: 14.4508
- type: NAUC_MAP@3_max value: -8.5473
- type: NAUC_MAP@3_std value: -16.6674
- type: NAUC_MAP@3_diff1 value: 11.1004
- type: NAUC_MAP@5_max value: -8.1927
- type: NAUC_MAP@5_std value: -16.2275
- type: NAUC_MAP@5_diff1 value: 10.678600000000001
- type: NAUC_MAP@10_max value: -8.3855
- type: NAUC_MAP@10_std value: -15.8309
- type: NAUC_MAP@10_diff1 value: 10.5414
- type: NAUC_MAP@20_max value: -8.277700000000001
- type: NAUC_MAP@20_std value: -15.824
- type: NAUC_MAP@20_diff1 value: 10.8494
- type: NAUC_MAP@100_max value: -8.3178
- type: NAUC_MAP@100_std value: -15.848300000000002
- type: NAUC_MAP@100_diff1 value: 10.9384
- type: NAUC_MAP@1000_max value: -8.319799999999999
- type: NAUC_MAP@1000_std value: -15.8522
- type: NAUC_MAP@1000_diff1 value: 10.9401
- type: NAUC_召回率@1_max value: -10.8287
- type: NAUC_召回率@1_std value: -17.1177
- type: NAUC_召回率@1_diff1 value: 14.4508
- type: NAUC_召回率@3_max value: -5.0587
- type: NAUC_召回率@3_std value: -16.730800000000002
- type: NAUC_召回率@3_diff1 value: 6.8079
- type: NAUC_召回率@5_max value: -2.6783
- type: NAUC_召回率@5_std value: -14.5046
- type: NAUC_召回率@5_diff1 value: 3.096
- type: NAUC_召回率@10_max value: -1.5855000000000001
- type: NAUC_召回率@10_std value: -8.2276
- type: NAUC_召回率@10_diff1 value: -6.1741
- type: NAUC_召回率@20_max value: 15.754299999999999
- type: NAUC_召回率@20_std value: 8.1974
- type: NAUC_召回率@20_diff1 value: -4.9207
- type: NAUC_召回率@100_max value: 20.4574
- type: NAUC_召回率@100_std value: 36.3741
- type: NAUC_召回率@100_diff1 value: -7.9483
- type: NAUC_召回率@1000_max value: 21.6023
- type: NAUC_召回率@1000_std value: 68.7296
- type: NAUC_召回率@1000_diff1 value: -24.9261
- type: NAUC_精确率@1_max value: -10.8287
- type: NAUC_精确率@1_std value: -17.1177
- type: NAUC_精确率@1_diff1 value: 14.4508
- type: NAUC_精确率@3_max value: -5.0587
- type: NAUC_精确率@3_std value: -16.730800000000002
- type: NAUC_精确率@3_diff1 value: 6.8079
- type: NAUC_精确率@5_max value: -2.6783
- type: NAUC_精确率@5_std value: -14.5046
- type: NAUC_精确率@5_diff1 value: 3.096
- type: NAUC_精确率@10_max value: -1.5855000000000001
- type: NAUC_精确率@10_std value: -8.2276
- type: NAUC_精确率@10_diff1 value: -6.1741
- type: NAUC_精确率@20_max value: 15.754299999999999
- type: NAUC_精确率@20_std value: 8.1974
- type: NAUC_精确率@20_diff1 value: -4.9207
- type: NAUC_精确率@100_max value: 20.4574
- type: NAUC_精确率@100_std value: 36.3741
- type: NAUC_精确率@100_diff1 value: -7.9483
- type: NAUC_精确率@1000_max value: 21.6023
- type: NAUC_精确率@1000_std value: 68.7296
- type: NAUC_精确率@1000_diff1 value: -24.9261
- type: NAUC_MRR@1_max value: -11.251999999999999
- type: NAUC_MRR@1_std value: -17.4386
- type: NAUC_MRR@1_diff1 value: 13.414200000000001
- type: NAUC_MRR@3_max value: -9.7985
- type: NAUC_MRR@3_std value: -16.650000000000002
- type: NAUC_MRR@3_diff1 value: 9.5099
- type: NAUC_MRR@5_max value: -9.064
- type: NAUC_MRR@5_std value: -16.4409
- type: NAUC_MRR@5_diff1 value: 9.4773
- type: NAUC_MRR@10_max value: -9.310400000000001
- type: NAUC_MRR@10_std value: -16.0546
- type: NAUC_MRR@10_diff1 value: 9.2528
- type: NAUC_MRR@20_max value: -9.223099999999999
- dataset:
config: en-ext
name: MTEB 亚马逊反事实分类 (en-ext)
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
split: 测试集
type: mteb/amazon_counterfactual
metrics:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文