跨模态检索

# 跨模态检索

Openvision Vit So400m Patch14 384

OpenVision是一个完全开放、经济高效的高级视觉编码器家族，用于多模态学习。

多模态融合

Openvision Vit Tiny Patch8 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Openvision Vit Tiny Patch16 384

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

图像特征提取

Unime LLaVA OneVision 7B

UniME是一个基于多模态大模型的通用嵌入学习框架，通过文本判别知识蒸馏和硬负样本增强的指令调优策略，显著提升了多模态嵌入能力。

多模态对齐

Transformers 英语

VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型，通过训练视觉语言模型，为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。

多模态融合

Transformers 英语

Unime LLaVA 1.6 7B

UniME是一个基于多模态大模型的通用嵌入学习模型，采用336×336图像分辨率训练，在MMEB排行榜上位列第一。

图像生成文本

Transformers 英语

基于SigLIP 2微调的视觉语言模型，最大文本长度从64提升至256标记

文本生成图像

Transformers 英语

基于Qwen2.5-Omni-7B构建的多模态嵌入模型，支持跨语言文本、图像、音频和视频的统一嵌入表示

多模态融合

Mme5 Mllama 11b Instruct

mmE5是基于Llama-3.2-11B-Vision训练的多模态多语言嵌入模型，通过高质量合成数据改进嵌入性能，在MMEB基准测试中达到最先进水平。

多模态融合

Transformers 支持多种语言

ConceptCLIP是一个通过医学概念增强的大规模视觉语言预训练模型，适用于多种医学影像模态，能在多种医学影像任务中实现稳健性能。

图像生成文本

Transformers 英语

MEXMA-SigLIP 是一个结合了多语言文本编码器和图像编码器的高性能CLIP模型，支持80种语言。

文本生成图像

Safetensors 支持多种语言

LLM2CLIP Openai L 14 224

LLM2CLIP是一种利用大型语言模型（LLM）释放CLIP潜力的创新方法，通过对比学习框架提升文本判别性，突破原始CLIP文本编码器的限制。

文本生成图像

LLM2CLIP Llama 3 8B Instruct CC Finetuned

LLM2CLIP是一种创新方法，通过大语言模型增强CLIP的跨模态能力，显著提升视觉和文本表征的判别力。

多模态融合

LLM2CLIP Openai B 16

LLM2CLIP是一种利用大语言模型（LLM）扩展CLIP能力的创新方法，通过对比学习框架提升文本判别性，显著提升跨模态任务性能。

文本生成图像

LLM2CLIP EVA02 L 14 336

LLM2CLIP是一种创新方法，通过大语言模型(LLM)增强CLIP的视觉表征能力，显著提升跨模态任务性能

文本生成图像

面向遥感领域的多语言视觉-语言预训练模型，支持10种语言的图像-文本跨模态任务

图像生成文本支持多种语言

E5-V是基于多模态大语言模型的通用嵌入方法，能够处理文本和图像输入并生成统一的嵌入表示。

多模态对齐

Safeclip Vit L 14

Safe-CLIP 是基于 CLIP 模型的增强型视觉与语言模型，旨在降低 AI 应用中与 NSFW（不适合工作场所）内容相关的风险。

文本生成图像

基于Vision Transformer架构的大规模视觉语言模型，支持图像与文本的跨模态理解

文本生成图像

Nomic Embed Vision V1.5

高性能视觉嵌入模型，与nomic-embed-text-v1.5共享相同的嵌入空间，支持多模态应用

文本生成图像

Transformers 英语

Nomic Embed Vision V1

高性能视觉嵌入模型，与nomic-embed-text-v1共享相同的嵌入空间，支持多模态应用

文本生成图像

Transformers 英语

Clip ViT B 32 Vision

基于CLIP ViT-B/32架构的ONNX移植版本，适用于图像分类和相似性搜索任务。

M3D-CLIP是专为3D医学影像设计的CLIP模型，通过对比损失实现视觉与语言的对齐。

多模态对齐

Blair Roberta Base

BLaIR是基于亚马逊评论2023数据集预训练的语言模型，专注于推荐和检索场景，能够生成强大的商品文本表征并预测相关商品。

Transformers 英语

Nllb Siglip Mrl Large

NLLB-SigLIP-MRL 是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉-语言模型，支持Flores-200的201种语言。

图像生成文本

Nllb Siglip Mrl Base

结合NLLB文本编码器和SigLIP图像编码器的多语言视觉语言模型，支持201种语言和多种嵌入维度

图像生成文本

Owlv2 Base Patch16

OWLv2是一个基于视觉语言预训练的模型，专注于对象检测和定位任务。

Owlvit Tiny Non Contiguous Weight

OWL-ViT 是一个基于视觉Transformer的开放词汇目标检测模型，能够检测图像中未在训练集中出现的类别。

文本生成图像

Internvl 14B 224px

InternVL-14B-224px 是一个14B参数量的视觉语言基础模型，支持多种视觉语言任务。

文本生成图像

Languagebind Video Huge V1.5 FT

LanguageBind 是一种通过语言实现多模态语义对齐的预训练模型，能够将视频、音频、深度、热成像等多种模态与语言进行绑定，实现跨模态的理解和检索。

多模态对齐

Vilt Finetuned 200

基于ViLT架构的视觉语言模型，在特定任务上进行了微调

文本生成图像

Languagebind Audio FT

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态间的纽带实现语义对齐。

多模态对齐

Languagebind Video Merge

LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型，获得了ICLR 2024的接收。

多模态对齐

Nllb Clip Base Siglip

NLLB-CLIP-SigLIP 是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉语言模型，支持201种语言。

文本生成图像

Nllb Clip Large Siglip

NLLB-CLIP-SigLIP是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉语言模型，支持201种语言。

文本生成图像

Xclip Base Patch16 Zero Shot

X-CLIP是CLIP的极简扩展，用于通用视频-语言理解，通过对比学习训练视频和文本的匹配关系。

文本生成视频

Transformers 英语

Metaclip L14 400m

MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型，用于构建图像-文本共享嵌入空间。

文本生成图像

Metaclip L14 Fullcc2.5b

MetaCLIP是基于CommonCrawl(CC)25亿数据点训练的大规模视觉-语言模型，解密了CLIP的数据筛选方法

文本生成图像

Metaclip B16 400m

MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型，用于构建图像-文本共享嵌入空间

文本生成图像

Metaclip B16 Fullcc2.5b

MetaCLIP是应用于CommonCrawl数据的CLIP框架实现，旨在揭示CLIP训练数据筛选方法

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24