Omniembed V0.1
MIT
基于Qwen2.5-Omni-7B构建的多模态嵌入模型,支持跨语言文本、图像、音频和视频的统一嵌入表示
多模态融合
O
Tevatron
2,190
3
Biqwen2 V0.1
Apache-2.0
BiQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,专注于高效视觉文档检索。
文本生成图像
英语
B
vidore
460
0
Nomic Embed Multimodal 7b
Apache-2.0
70亿参数的多模态嵌入模型,专精于视觉文档检索任务,在Vidore-v2基准测试中表现卓越
文本生成图像
支持多种语言
N
nomic-ai
741
26
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型,专注于视觉文档检索任务,支持统一文本-图像编码,在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。
文本生成图像
支持多种语言
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
多模态融合
支持多种语言
C
nomic-ai
4,636
17
Colsmol 500M
MIT
基于SmolVLM-Instruct-500M与ColBERT策略的视觉检索模型,能高效通过视觉特征索引文档
文本生成图像
英语
C
vidore
1,807
17
Colqwen2 V1.0
Apache-2.0
ColQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,用于高效索引文档的视觉特征。
文本生成图像
英语
C
vidore
106.85k
86
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一个双编码器模型,专为将文档截图编码为密集向量以实现文档检索而设计。
多模态融合
支持多种语言
D
MrLight
4,447
56
Colpali V1.2
MIT
ColPali是基于PaliGemma-3B与ColBERT策略的视觉语言模型,用于高效地从视觉特征中索引文档。
文本生成图像
英语
C
vidore
61.77k
108
Colpali V1.1
MIT
ColPali是基于PaliGemma-3B与ColBERT策略的视觉检索模型,用于高效地从视觉特征中索引文档。
文本生成图像
Safetensors
英语
C
vidore
196
2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文