多模态视觉编码

# 多模态视觉编码

Openvision Vit Base Patch16 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Openvision Vit Huge Patch14 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Openvision Vit Huge Patch14 84

OpenVision 是一个全开放、高性价比的先进视觉编码器家族，专为多模态学习设计。

Openvision Vit Large Patch14 336

OpenVision是一个完全开放、经济高效的高级视觉编码器家族，专为多模态学习设计。

Openvision Vit Large Patch14 224

OpenVision 是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Openvision Vit Large Patch14 84

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习任务。

Openvision Vit Base Patch8 224

OpenVision 是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

Openvision Vit Base Patch8 160

OpenVision-ViT-Tiny 是一个全开放、高性价比的先进视觉编码器，属于 OpenVision 家族的一部分，专注于多模态学习。

Openvision Vit Small Patch8 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

图像特征提取

Openvision Vit Tiny Patch8 384

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

Openvision Vit Tiny Patch8 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Openvision Vit Tiny Patch16 384

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

图像特征提取

Openvision Vit Tiny Patch16 160

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Vit So400m Patch16 Siglip Gap 384.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

Vit So400m Patch16 Siglip Gap 256.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

文本生成图像

Vit So400m Patch16 Siglip 512.v2 Webli

基于SigLIP 2的视觉Transformer模型，专为图像特征提取设计，适用于多语言视觉-语言任务。

文本生成图像

Vit So400m Patch16 Siglip 384.v2 Webli

基于SigLIP 2的视觉Transformer模型，专为图像特征提取设计，预训练于webli数据集

文本生成图像

Vit So400m Patch16 Siglip 256.v2 Webli

SigLIP 2 ViT模型，仅包含图像编码器部分，用于图像特征提取，基于WebLI数据集训练。

文本生成图像

Vit So400m Patch14 Siglip Gap 378.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，使用WebLI数据集预训练，移除了注意力池化头并采用全局平均池化

Vit So400m Patch14 Siglip Gap 224.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

Vit So400m Patch14 Siglip 378.v2 Webli

基于SigLIP 2的视觉Transformer模型，专为图像特征提取设计，训练于webli数据集

文本生成图像

Vit So400m Patch14 Siglip 224.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，预训练于webli数据集。

Vit Large Patch16 Siglip Gap 512.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，采用全局平均池化(GAP)替代注意力池化头部

Vit Large Patch16 Siglip Gap 384.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，采用全局平均池化(GAP)的变体，移除了注意力池化头，适用于图像特征提取任务。

文本生成图像

Vit Large Patch16 Siglip Gap 256.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，专为图像特征提取设计。

文本生成图像

Vit Large Patch16 Siglip 512.v2 Webli

基于SigLIP 2的ViT图像编码器，专为timm设计，适用于视觉-语言任务

Vit Large Patch16 Siglip 384.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，预训练于webli数据集

文本生成图像

Vit Large Patch16 Siglip 256.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计，训练于webli数据集

Vit Giantopt Patch16 Siglip Gap 384.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化处理，移除了注意力池化头部，适用于图像特征提取任务。

Vit Giantopt Patch16 Siglip Gap 256.v2 Webli

SigLIP 2 ViT图像编码器，采用全局平均池化，移除了注意力池化头，专为timm设计

Vit Giantopt Patch16 Siglip 384.v2 Webli

基于SigLIP 2的ViT图像编码器，专为timm设计，适用于视觉语言任务

Vit Giantopt Patch16 Siglip 256.v2 Webli

基于SigLIP 2技术的视觉Transformer模型，专注于图像特征提取

文本生成图像

Vit Base Patch32 Siglip Gap 256.v2 Webli

基于SigLIP 2的视觉Transformer模型，使用全局平均池化(GAP)替代注意力池化头的图像编码器

文本生成图像

Vit Base Patch32 Siglip 256.v2 Webli

基于SigLIP 2架构的视觉Transformer模型，专为图像特征提取设计

文本生成图像

Vit Base Patch16 Siglip Gap 512.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除了注意力池化头，适用于图像特征提取任务。

Vit Base Patch16 Siglip Gap 384.v2 Webli

基于SigLIP 2的ViT图像编码器，使用全局平均池化(GAP)替代注意力池化头，适用于图像特征提取任务。

Vit Base Patch16 Siglip Gap 256.v2 Webli

基于SigLIP 2的ViT图像编码器，采用全局平均池化，移除注意力池化头，适用于图像特征提取。

多模态融合

Vit Base Patch16 Siglip Gap 224.v2 Webli

基于SigLIP 2的视觉变换器模型，采用全局平均池化处理图像特征

Vit Base Patch16 Siglip 512.v2 Webli

基于SigLIP 2的视觉变换器模型，专为图像特征提取设计，使用webli数据集预训练

文本生成图像

Vit Base Patch16 Siglip 384.v2 Webli

基于SigLIP 2的视觉变换器模型，专为图像特征提取设计，使用webli数据集预训练

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24