模型介绍
内容详情
替代品
模型简介
该模型基于 Facebook 的 XMOD-base 架构,专门用于多语言段落检索任务,在 mMARCO 数据集上表现出色。
模型特点
多语言支持
支持超过50种语言的段落检索任务
高效检索
采用ColBERT架构,平衡了检索效率和准确性
强健性能
在mMARCO多语言数据集上表现优异
模型能力
多语言段落检索
句子相似度计算
上下文感知检索
使用案例
信息检索
多语言文档检索
从多语言文档集合中检索相关段落
在mMARCO数据集上Recall@1000达到74.8-96.5%
问答系统
作为问答系统的检索组件
推荐系统
相关内容推荐
基于内容相似度的多语言推荐
pipeline_tag: 句子相似度 datasets:
- ms_marco
- sentence-transformers/msmarco-hard-negatives metrics:
- 召回率 tags:
- colbert
- 段落检索 library_name: colbert-ai base_model: facebook/xmod-base inference: false license: mit model-index:
- name: colbert-xm
results:
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-ar
config: 阿拉伯语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 74.8
- type: recall_at_500 name: Recall@500 value: 72.1
- type: recall_at_100 name: Recall@100 value: 60.4
- type: recall_at_10 name: Recall@10 value: 36.5
- type: mrr_at_10 name: MRR@10 value: 19.5
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-de
config: 德语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 86.0
- type: recall_at_500 name: Recall@500 value: 84.1
- type: recall_at_100 name: Recall@100 value: 73.9
- type: recall_at_10 name: Recall@10 value: 49.5
- type: mrr_at_10 name: MRR@10 value: 27.0
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-en
config: 英语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 96.5
- type: recall_at_500 name: Recall@500 value: 95.9
- type: recall_at_100 name: Recall@100 value: 89.3
- type: recall_at_10 name: Recall@10 value: 65.7
- type: mrr_at_10 name: MRR@10 value: 37.2
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-es
config: 西班牙语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 88.4
- type: recall_at_500 name: Recall@500 value: 86.8
- type: recall_at_100 name: Recall@100 value: 77.5
- type: recall_at_10 name: Recall@10 value: 52.0
- type: mrr_at_10 name: MRR@10 value: 28.5
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-fr
config: 法语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 87.3
- type: recall_at_500 name: Recall@500 value: 85.7
- type: recall_at_100 name: Recall@100 value: 75.2
- type: recall_at_10 name: Recall@10 value: 49.2
- type: mrr_at_10 name: MRR@10 value: 26.9
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-hi
config: 印地语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 82.2
- type: recall_at_500 name: Recall@500 value: 79.9
- type: recall_at_100 name: Recall@100 value: 69.8
- type: recall_at_10 name: Recall@10 value: 44.2
- type: mrr_at_10 name: MRR@10 value: 23.8
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-id
config: 印尼语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 86.7
- type: recall_at_500 name: Recall@500 value: 84.8
- type: recall_at_100 name: Recall@100 value: 74.5
- type: recall_at_10 name: Recall@10 value: 48.3
- type: mrr_at_10 name: MRR@10 value: 26.3
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-it
config: 意大利语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 86.1
- type: recall_at_500 name: Recall@500 value: 84.3
- type: recall_at_100 name: Recall@100 value: 74.1
- type: recall_at_10 name: Recall@10 value: 48.2
- type: mrr_at_10 name: MRR@10 value: 26.5
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-ja
config: 日语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 83.6
- type: recall_at_500 name: Recall@500 value: 81.8
- type: recall_at_100 name: Recall@100 value: 71.4
- type: recall_at_10 name: Recall@10 value: 44.6
- type: mrr_at_10 name: MRR@10 value: 24.1
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-nl
config: 荷兰语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 86.8
- type: recall_at_500 name: Recall@500 value: 85.0
- type: recall_at_100 name: Recall@100 value: 75.2
- type: recall_at_10 name: Recall@10 value: 49.8
- type: mrr_at_10 name: MRR@10 value: 27.5
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-pt
config: 葡萄牙语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 87.1
- type: recall_at_500 name: Recall@500 value: 85.3
- type: recall_at_100 name: Recall@100 value: 75.8
- type: recall_at_10 name: Recall@10 value: 50.5
- type: mrr_at_10 name: MRR@10 value: 27.6
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-ru
config: 俄语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 85.7
- type: recall_at_500 name: Recall@500 value: 83.8
- type: recall_at_100 name: Recall@100 value: 73.6
- type: recall_at_10 name: Recall@10 value: 47.3
- type: mrr_at_10 name: MRR@10 value: 25.1
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-vi
config: 越南语
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 81.6
- type: recall_at_500 name: Recall@500 value: 79.0
- type: recall_at_100 name: Recall@100 value: 67.5
- type: recall_at_10 name: Recall@10 value: 42.4
- type: mrr_at_10 name: MRR@10 value: 22.6
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-zh
config: 中文
split: 验证集
metrics:
- type: recall_at_1000 name: Recall@1000 value: 84.8
- type: recall_at_500 name: Recall@500 value: 83.1
- type: recall_at_100 name: Recall@100 value: 72.2
- type: recall_at_10 name: Recall@10 value: 46.0
- type: mrr_at_10 name: MRR@10 value: 24.6 language:
- task:
type: 句子相似度
name: 段落检索
dataset:
type: unicamp-dl/mmarco
name: mMARCO-ar
config: 阿拉伯语
split: 验证集
metrics:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 爱尔兰语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文