J
Jina Embeddings V3
由 arkohut 开发
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度计算和特征提取任务。
下载量 506
发布时间 : 10/23/2024
模型介绍
内容详情
替代品
模型简介
该模型主要用于生成高质量的句子嵌入,适用于多语言环境下的文本相似度计算、信息检索和语义搜索等任务。
模型特点
多语言支持
支持超过100种语言的句子嵌入计算,包括主流语言和部分小众语言
高效特征提取
能够快速生成高质量的句子嵌入表示
句子相似度计算
专门优化用于计算句子间的语义相似度
模型能力
多语言文本嵌入
句子相似度计算
语义特征提取
信息检索
使用案例
信息检索
跨语言文档搜索
在多语言文档库中实现语义搜索功能
文本相似度
问答系统匹配
计算用户问题与知识库问题的语义相似度
许可证:cc-by-nc-4.0
标签:
- 特征提取
- 句子相似度
- mteb
- sentence-transformers
支持语言:
- 多语言
- 南非荷兰语 (af)
- 阿姆哈拉语 (am)
- 阿拉伯语 (ar)
- 阿萨姆语 (as)
- 阿塞拜疆语 (az)
- 白俄罗斯语 (be)
- 保加利亚语 (bg)
- 孟加拉语 (bn)
- 布列塔尼语 (br)
- 波斯尼亚语 (bs)
- 加泰罗尼亚语 (ca)
- 捷克语 (cs)
- 威尔士语 (cy)
- 丹麦语 (da)
- 德语 (de)
- 希腊语 (el)
- 英语 (en)
- 世界语 (eo)
- 西班牙语 (es)
- 爱沙尼亚语 (et)
- 巴斯克语 (eu)
- 波斯语 (fa)
- 芬兰语 (fi)
- 法语 (fr)
- 西弗里斯语 (fy)
- 爱尔兰语 (ga)
- 苏格兰盖尔语 (gd)
- 加利西亚语 (gl)
- 古吉拉特语 (gu)
- 豪萨语 (ha)
- 希伯来语 (he)
- 印地语 (hi)
- 克罗地亚语 (hr)
- 匈牙利语 (hu)
- 亚美尼亚语 (hy)
- 印尼语 (id)
- 冰岛语 (is)
- 意大利语 (it)
- 日语 (ja)
- 爪哇语 (jv)
- 格鲁吉亚语 (ka)
- 哈萨克语 (kk)
- 高棉语 (km)
- 卡纳达语 (kn)
- 韩语 (ko)
- 库尔德语 (ku)
- 吉尔吉斯语 (ky)
- 拉丁语 (la)
- 老挝语 (lo)
- 立陶宛语 (lt)
- 拉脱维亚语 (lv)
- 马尔加什语 (mg)
- 马其顿语 (mk)
- 马拉雅拉姆语 (ml)
- 蒙古语 (mn)
- 马拉地语 (mr)
- 马来语 (ms)
- 缅甸语 (my)
- 尼泊尔语 (ne)
- 荷兰语 (nl)
- 挪威语 (no)
- 奥罗莫语 (om)
- 奥里亚语 (or)
- 旁遮普语 (pa)
- 波兰语 (pl)
- 普什图语 (ps)
- 葡萄牙语 (pt)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 梵语 (sa)
- 信德语 (sd)
- 僧伽罗语 (si)
- 斯洛伐克语 (sk)
- 斯洛文尼亚语 (sl)
- 索马里语 (so)
- 阿尔巴尼亚语 (sq)
- 塞尔维亚语 (sr)
- 巽他语 (su)
- 瑞典语 (sv)
- 斯瓦希里语 (sw)
- 泰米尔语 (ta)
- 泰卢固语 (te)
- 泰语 (th)
- 他加禄语 (tl)
- 土耳其语 (tr)
- 维吾尔语 (ug)
- 乌克兰语 (uk)
- 乌尔都语 (ur)
- 乌兹别克语 (uz)
- 越南语 (vi)
- 科萨语 (xh)
- 意第绪语 (yi)
- 中文 (zh)
推理:false
库名称:transformers
模型索引:
- 名称:jina-embeddings-v3
结果:-
数据集:
配置:默认
名称:MTEB AFQMC(默认)
版本:b44c3b011063adb25877c13823db83bb193913c4
拆分:验证
类型:C-MTEB/AFQMC
指标:- 类型:余弦皮尔逊
值:41.74237700998808 - 类型:余弦斯皮尔曼
值:43.4726782647566 - 类型:欧几里得皮尔逊
值:42.244585459479964 - 类型:欧几里得斯皮尔曼
值:43.525070045169606 - 类型:主要分数
值:43.4726782647566 - 类型:曼哈顿皮尔逊
值:42.04616728224863 - 类型:曼哈顿斯皮尔曼
值:43.308828270754645 - 类型:皮尔逊
值:41.74237700998808 - 类型:斯皮尔曼
值:43.4726782647566
任务:
类型:STS
- 类型:余弦皮尔逊
-
数据集:
配置:默认
名称:MTEB ArguAna-PL(默认)
版本:63fc86750af76253e8c760fc9e534bbf24d260a2
拆分:测试
类型:clarin-knext/arguana-pl
指标:- 类型:主要分数
值:50.117999999999995 - 类型:map_at_1
值:24.253 - 类型:map_at_10
值:40.725 - 类型:map_at_100
值:41.699999999999996 - 类型:map_at_1000
值:41.707 - 类型:map_at_20
值:41.467999999999996 - 类型:map_at_3
值:35.467 - 类型:map_at_5
值:38.291 - 类型:mrr_at_1
值:24.751066856330013 - 类型:mrr_at_10
值:40.91063808169072 - 类型:mrr_at_100
值:41.885497923928675 - 类型:mrr_at_1000
值:41.89301098419842 - 类型:mrr_at_20
值:41.653552355442514 - 类型:mrr_at_3
值:35.656709340919775 - 类型:mrr_at_5
值:38.466097676623946 - 类型:nauc_map_at_1000_diff1
值:7.503000359807567 - 类型:nauc_map_at_1000_max
值:-11.030405164830546 - 类型:nauc_map_at_1000_std
值:-8.902792782585117 - 类型:nauc_map_at_100_diff1
值:7.509899249593199 - 类型:nauc_map_at_100_max
值:-11.023581259404406 - 类型:nauc_map_at_100_std
值:-8.892241185067272 - 类型:nauc_map_at_10_diff1
值:7.24369711881512 - 类型:nauc_map_at_10_max
值:-10.810000200433278 - 类型:nauc_map_at_10_std
值:-8.987230542165776 - 类型:nauc_map_at_1_diff1
值:11.37175831832417 - 类型:nauc_map_at_1_max
值:-13.315221903223055 - 类型:nauc_map_at_1_std
值:-9.398199605510275 - 类型:nauc_map_at_20_diff1
值:7.477364530860648 - 类型:nauc_map_at_20_max
值:-10.901251218105566 - 类型:nauc_map_at_20_std
值:-8.868148116405925 - 类型:nauc_map_at_3_diff1
值:6.555548802174882 - 类型:nauc_map_at_3_max
值:-12.247274800542934 - 类型:nauc_map_at_3_std
值:-9.879475250984811 - 类型:nauc_map_at_5_diff1
值:7.426588563355882 - 类型:nauc_map_at_5_max
值:-11.347695686001805 - 类型:nauc_map_at_5_std
值:-9.34441892203972 - 类型:nauc_mrr_at_1000_diff1
值:5.99737552143614 - 类型:nauc_mrr_at_1000_max
值:-11.327205136505727 - 类型:nauc_mrr_at_1000_std
值:-8.791079115519503 - 类型:nauc_mrr_at_100_diff1
值:6.004622525255784 - 类型:nauc_mrr_at_100_max
值:-11.320336759899723 - 类型:nauc_mrr_at_100_std
值:-8.780602249831777 - 类型:nauc_mrr_at_10_diff1
值:5.783623516930227 - 类型:nauc_mrr_at_10_max
值:-11.095971693467078 - 类型:nauc_mrr_at_10_std
值:-8.877242032013582 - 类型:nauc_mrr_at_1_diff1
值:9.694937537703797 - 类型:nauc_mrr_at_1_max
值:-12.531905083727912 - 类型:nauc_mrr_at_1_std
值:-8.903992940100146 - 类型:nauc_mrr_at_20_diff1
值:5.984841206233873 - 类型:nauc_mrr_at_20_max
值:-11.195236951048969 - 类型:nauc_mrr_at_20_std
值:-8.757266039186018 - 类型:nauc_mrr_at_3_diff1
值:5.114333824261379 - 类型:nauc_mrr_at_3_max
值:-12.64809799843464 - 类型:nauc_mrr_at_3_std
值:-9.791146138025184 - 类型:nauc_mrr_at_5_diff1
值:5.88941606224512 - 类型:nauc_mrr_at_5_max
值:-11.763903418071918 - 类型:nauc_mrr_at_5_std
值:-9.279175712709446 - 类型:nauc_ndcg_at_1000_diff1
值:7.076950652226086 - 类型:nauc_ndcg_at_1000_max
值:-10.386482092087371 - 类型:nauc_ndcg_at_1000_std
值:-8.309190917074046 - 类型:nauc_ndcg_at_100_diff1
值:7.2329220284865245 - 类型:nauc_ndcg_at_100_max
值:-10.208048403220337 - 类型:nauc_ndcg_at_100_std
值:-7.997975874274613 - 类型:nauc_ndcg_at_10_diff1
值:6.065391100006953 - 类型:nauc_ndcg_at_10_max
值:-9.046164377601153 - 类型:nauc_ndcg_at_10_std
值:-8.34724889697153 - 类型:nauc_ndcg_at_1_diff1
值:11.37175831832417 - 类型:nauc_ndcg_at_1_max
值:-13.315221903223055 - 类型:nauc_ndcg_at_1_std
值:-9.398199605510275 - 类型:nauc_ndcg_at_20_diff1
值:6.949389989202601 - 类型:nauc_ndcg_at_20_max
值:-9.35740451760307 - 类型:nauc_ndcg_at_20_std
值:-7.761295171828212 - 类型:nauc_ndcg_at_3_diff1
值:5.051471796151364 - 类型:nauc_ndcg_at_3_max
值:-12.158763333711653 - 类型:nauc_ndcg_at_3_std
值:-10.078902544421926 - 类型:nauc_ndcg_at_5_diff1
值:6.527454512611454 - 类型:nauc_ndcg_at_5_max
值:-10.525118233848586 - 类型:nauc_ndcg_at_5_std
值:-9.120055125584031 - 类型:nauc_precision_at_1000_diff1
值:-10.6495668199151 - 类型:nauc_precision_at_1000_max
值:12.070656425217841 - 类型:nauc_precision_at_1000_std
值:55.844551709649004 - 类型:nauc_precision_at_100_diff1
值:19.206967129266285 - 类型:nauc_precision_at_100_max
值:16.296851020813456 - 类型:nauc_precision_at_100_std
值:45.60378984257811 - 类型:nauc_precision_at_10_diff1
值:0.6490335354304879 - 类型:nauc_precision_at_10_max
值:0.5757198255366447 - 类型:nauc_precision_at_10_std
值:-4.875847131691451 - 类型:nauc_precision_at_1_diff1
值:11.37175831832417 - 类型:nauc_precision_at_1_max
值:-13.315221903223055 - 类型:nauc_precision_at_1_std
值:-9.398199605510275 - 类型:nauc_precision_at_20_diff1
值:4.899369866929203 - 类型:nauc_precision_at_20_max
值:5.988537297189552 - 类型:nauc_precision_at_20_std
值:4.830900387582837 - 类型:nauc_precision_at_3_diff1
值:0.8791156910997744 - 类型:nauc_precision_at_3_max
值:-11.983373635905993 - 类型:nauc_precision_at_3_std
值:-10.646185111581257 - 类型:nauc_precision_at_5_diff1
值:3.9314486166548432 - 类型:nauc_precision_at_5_max
值:-7.798591396895839 - 类型:nauc_precision_at_5_std
值:-8.293043407234125 - 类型:nauc_recall_at_1000_diff1
值:-10.649566819918673 - 类型:nauc_recall_at_1000_max
值:12.070656425214647 - 类型:nauc_recall_at_1000_std
值:55.84455170965023 - 类型:nauc_recall_at_100_diff1
值:19.206967129265127 - 类型:nauc_recall_at_100_max
值:16.296851020813722 - 类型:nauc_recall_at_100_std
值:45.60378984257728 - 类型:nauc_recall_at_10_diff1
值:0.6490335354304176 - 类型:nauc_recall_at_10_max
值:0.5757198255366095 - 类型:nauc_recall_at_10_std
值:-4.875847131691468 - 类型:nauc_recall_at_1_diff1
值:11.37175831832417 - 类型:nauc_recall_at_1_max
值:-13.315221903223055 - 类型:nauc_recall_at_1_std
值:-9.398199605510275 - 类型:nauc_recall_at_20_diff1
值:4.899369866929402 - 类型:nauc_recall_at_20_max
值:5.98853729718968 - 类型:nauc_recall_at_20_std
值:4.830900387582967 - 类型:nauc_recall_at_3_diff1
值:0.8791156910997652 - 类型:nauc_recall_at_3_max
值:-11.983373635905997 - 类型:nauc_recall_at_3_std
值:-10.64618511158124 - 类型:nauc_recall_at_5_diff1
值:3.9314486166548472 - 类型:nauc_recall_at_5_max
值:-7.7985913968958585 - 类型:nauc_recall_at_5_std
值:-8.293043407234132 - 类型:ndcg_at_1
值:24.253 - 类型:ndcg_at_10
值:50.117999999999995 - 类型:ndcg_at_100
值:54.291999999999994 - 类型:ndcg_at_1000
值:54.44799999999999 - 类型:ndcg_at_20
值:52.771 - 类型:ndcg_at_3
值:39.296 - 类型:ndcg_at_5
值:44.373000000000005 - 类型:precision_at_1
值:24.253 - 类型:precision_at_10
值:8.016 - 类型:precision_at_100
值:0.984 - 类型:precision_at_1000
值:0.1
- 类型:主要分数
-
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文