多模态检索

# 多模态检索

FG-CLIP是一个细粒度视觉与文本对齐模型，通过两阶段训练实现全局和区域级别的图像-文本对齐。

文本生成图像

Transformers 英语

Jina Embeddings V4

Jina Embeddings v4 是一款专为多模态和多语言检索设计的通用嵌入模型，特别适用于复杂文档的检索，包括包含图表、表格和插图的视觉丰富文档。

多模态融合

Transformers 其他

CLIP ViT H 14 Laion2b S32b B79k

这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型，擅长零样本图像分类和跨模态检索任务。

文本生成图像

CLIP ViT B 32 Laion2b S34b B79k

基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索

文本生成图像

CLIP ViT L 14 Spectrum Icons 20k

基于CLIP ViT-L/14微调的视觉语言模型，专为抽象图像-文本检索任务优化

文本生成图像

TensorBoard 英语

Prolip ViT B 16 DC 1B 12 8B

基于DataComp 1B数据集预训练的概率语言-图像预训练(ProLIP)ViT-B/16模型

文本生成图像

Jina CLIP v2 是一个通用的多语言多模态嵌入模型，适用于文本和图像，支持89种语言，具有更高的图像分辨率和嵌套表示能力。

文本生成图像

Transformers 支持多种语言

ColPali是基于PaliGemma-3B与ColBERT策略的视觉检索模型，用于高效地从视觉特征中索引文档。

文本生成图像

Safetensors 英语

Patentclip RN101

基于OpenCLIP库的零样本图像分类模型，适用于专利图像分析

CLIP ViT B 32 Laion2b S34b B79k

基于OpenCLIP框架在LAION-2B数据集上训练的CLIP ViT-B/32模型，支持零样本图像分类和跨模态检索任务

文本生成图像

CLIP GmP ViT L 14

基于OpenAI CLIP ViT-L/14的微调模型，通过几何参数化(GmP)实现性能提升，特别优化了文本编码能力

文本生成图像

CLIP ViT B 32 DataComp.XL S13b B90k

这是一个基于 DataComp-1B 数据集训练的 CLIP ViT-B/32 模型，用于零样本图像分类和图像文本检索等任务。

文本生成图像

CLIP ViT B 32 256x256 DataComp S34b B86k

这是一个基于DataComp-1B数据集训练的CLIP ViT-B/32模型，使用OpenCLIP框架在256x256分辨率下完成训练，主要用于零样本图像分类和图文检索任务。

文本生成图像

Pmc Vit L 14 Hf

基于CLIP-ViT-L/14在PMC-OA数据集上微调的视觉语言模型

文本生成图像

CLIP ViT B 16 DataComp.XL S13b B90k

这是一个基于 DataComp-1B 数据集训练的 CLIP ViT-L/14 模型，支持零样本图像分类和图像文本检索任务。

图像生成文本

CLIP ViT B 16 DataComp.XL S13b B90k

这是一个使用OpenCLIP在DataComp-1B数据集上训练的CLIP ViT-B/16模型，主要用于零样本图像分类和图像文本检索。

文本生成图像

CLIP ViT L 14 DataComp.XL S13b B90k

该模型是基于DataComp-1B数据集训练的CLIP ViT-L/14模型，主要用于零样本图像分类和图文检索任务。

文本生成图像

Arabic Clip Vit Base Patch32

阿拉伯语CLIP是对比语言-图像预训练(CLIP)模型针对阿拉伯语的适配版本，能够从图像中学习概念并将其与阿拉伯语文本描述相关联。

文本生成图像阿拉伯语

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup

基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型，采用OpenCLIP框架训练，是首个非ViT图像塔CLIP模型实现>79% ImageNet top-1零样本准确率

文本生成图像

CLIP Convnext Large D 320.laion2B S29b B131k Ft

基于ConvNeXt-Large架构的CLIP模型，在LAION-2B数据集上训练，支持零样本图像分类和图像文本检索任务。

文本生成图像

CLIP Convnext Large D 320.laion2B S29b B131k Ft Soup

基于ConvNeXt-Large架构的CLIP模型，在LAION-2B数据集上训练，支持零样本图像分类和图像文本检索任务

文本生成图像

CLIP Convnext Large D.laion2b S26b B102k Augreg

基于LAION-2B数据集训练的大规模ConvNeXt-Large CLIP模型，支持零样本图像分类和图文检索任务

文本生成图像

CLIP ViT Bigg 14 Laion2b 39B B160k

基于OpenCLIP框架在LAION-2B数据集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索

文本生成图像

CLIP Convnext Base W Laion2b S13b B82k Augreg

基于ConvNeXt-Base架构的CLIP模型，使用OpenCLIP在LAION-5B子集上训练，专注于零样本图像分类任务

文本生成图像

CLIP Convnext Base W 320 Laion Aesthetic S13b B82k

基于ConvNeXt-Base架构的CLIP模型，在LAION-5B子集上训练，适用于零样本图像分类和图像文本检索任务。

文本生成图像

CLIP Convnext Base W Laion Aesthetic S13b B82k

基于LAION-Aesthetic数据集训练的ConvNeXt-Base架构CLIP模型，支持零样本图像分类和跨模态检索任务

文本生成图像

CLIP Convnext Base W Laion2b S13b B82k

基于ConvNeXt-Base架构的CLIP模型，在LAION-5B子集上训练，支持零样本图像分类和图文检索任务

文本生成图像

CLIP ViT B 16 Laion2b S34b B88k

基于OpenCLIP框架训练的多模态视觉语言模型，在LAION-2B英语数据集上训练完成，支持零样本图像分类任务

文本生成图像

Taiyi CLIP RoBERTa 102M ViT L Chinese

首个开源的中文CLIP模型，基于1.23亿图文对进行预训练，文本编码器采用RoBERTa-base架构。

文本生成图像

Transformers 中文

CLIP ViT H 14 Laion2b S32b B79k

基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索任务

文本生成图像

CLIP ViT L 14 Laion2b S32b B82k

基于OpenCLIP框架在LAION-2B英语子集上训练的视觉语言模型，支持零样本图像分类和图文检索

文本生成图像

CLIP ViT B 32 Laion2b S34b B79k

基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24