零样本迁移
Cultureclip
基于CLIP-ViT-B/32微调的视觉语言模型,适用于图像-文本匹配任务
文本生成图像
Transformers
C
lukahh
20
0
Openvision Vit So400m Patch14 384
Apache-2.0
OpenVision是一个完全开放、经济高效的高级视觉编码器家族,用于多模态学习。
多模态融合
O
UCSC-VLAA
238
0
Openvision Vit So400m Patch14 224
Apache-2.0
OpenVision是一个完全开源、高性价比的先进视觉编码器家族,专为多模态学习设计,性能匹配甚至超越OpenAI CLIP。
多模态融合
Transformers
O
UCSC-VLAA
41
0
Openvision Vit Base Patch16 160
Apache-2.0
OpenVision是一个完全开源、经济高效的高级视觉编码器家族,用于多模态学习。
多模态融合
O
UCSC-VLAA
15
0
Vica2 Init
Apache-2.0
ViCA2是一个多模态视觉语言模型,专注于视频理解和视觉空间认知任务。
视频生成文本
Transformers
英语
V
nkkbr
30
0
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2是一个7B参数规模的多模态视觉语言模型,专注于视频理解和视觉空间认知任务。
视频生成文本
Transformers
英语
V
nkkbr
63
0
Blip Custom Captioning
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成等视觉-语言任务
图像生成文本
B
hiteshsatwani
78
0
Ipa Whisper Base
Apache-2.0
基于Whisper-base微调的多语言语音识别模型,支持国际音标(IPA)输出
语音识别
支持多种语言
I
neurlang
599
6
Vit So400m Patch16 Siglip 256.v2 Webli
Apache-2.0
SigLIP 2 ViT模型,仅包含图像编码器部分,用于图像特征提取,基于WebLI数据集训练。
文本生成图像
Transformers
V
timm
12.56k
0
Vit So400m Patch14 Siglip 224.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,专为图像特征提取设计,预训练于webli数据集。
图像分类
Transformers
V
timm
7,005
0
Vit Large Patch16 Siglip 384.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,专为图像特征提取设计,预训练于webli数据集
文本生成图像
Transformers
V
timm
4,265
0
Vit Large Patch16 Siglip 256.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,专为图像特征提取设计,训练于webli数据集
图像分类
Transformers
V
timm
525
0
Vit Giantopt Patch16 Siglip 384.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,专为timm设计,适用于视觉语言任务
图像分类
Transformers
V
timm
160
0
Vit Base Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,采用全局平均池化,移除注意力池化头,适用于图像特征提取。
多模态融合
Transformers
V
timm
114
1
Vit Base Patch16 Siglip 384.v2 Webli
Apache-2.0
基于SigLIP 2的视觉变换器模型,专为图像特征提取设计,使用webli数据集预训练
文本生成图像
Transformers
V
timm
330
0
Vit Base Patch16 Siglip 224.v2 Webli
Apache-2.0
基于SigLIP 2的ViT模型,专注于图像特征提取,使用webli数据集训练
文本生成图像
Transformers
V
timm
1,992
0
Blip Image Captioning Large
Bsd-3-clause
基于COCO数据集预训练的视觉语言模型,擅长生成精准的图像描述
图像生成文本
B
drgary
23
1
Snowflake Arctic Embed M V2.0 Cpu
Apache-2.0
Snowflake Arctic Embed M v2.0 是一个多语言句子嵌入模型,专注于句子相似度任务,支持超过50种语言。
文本嵌入
Transformers
支持多种语言
S
cnmoro
502
3
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,适用于图像特征提取任务。
图像分类
Transformers
A
timm
35
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基于CLIP架构的ViT-Huge图像编码器,由苹果公司发布的DFN5B-CLIP模型,适用于视觉特征提取任务。
图像分类
Transformers
V
timm
128
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
基于CLIP架构的ConvNeXt-Large图像编码器,在LAION-2B数据集上微调,支持320x320分辨率图像特征提取
图像分类
Transformers
C
timm
173
0
Convnext Large Mlp.clip Laion2b Augreg
Apache-2.0
基于CLIP框架的ConvNeXt-Large图像编码器,使用LAION-2B数据集训练,支持视觉特征提取
图像分类
Transformers
C
timm
107
0
Vesselfm
其他
VesselFM 是一个基础模型,用于在任意成像领域中实现通用的 3D 血管分割。
图像分割
V
bwittmann
153
4
Cogact Small
MIT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
多模态融合
Transformers
英语
C
CogACT
405
4
Cogact Large
MIT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
多模态融合
Transformers
英语
C
CogACT
122
3
Cogact Base
MIT
CogACT是一种新型视觉语言动作(VLA)架构,结合视觉语言模型与专用动作模块,用于机器人操作任务。
多模态融合
Transformers
英语
C
CogACT
6,589
12
Aimv2 Large Patch14 Native Image Classification
MIT
AIMv2-Large-Patch14-Native 是一个适配后的图像分类模型,基于原始AIMv2模型修改,兼容Hugging Face Transformers的AutoModelForImageClassification类。
图像分类
Transformers
A
amaye15
15
2
Paligemma2 3b Pt 224
PaliGemma 2是Google开发的视觉语言模型(VLM),结合了Gemma 2语言模型和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers
P
google
30.51k
148
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers
P
google
8,765
12
Sam2.1 Hiera Small
Apache-2.0
SAM 2是FAIR研发的面向图像与视频可提示视觉分割的基础模型,支持通过提示进行高效分割。
图像分割
S
facebook
7,333
6
Sam2.1 Hiera Large
Apache-2.0
SAM 2是FAIR研发的面向图像与视频可提示视觉分割的基础模型,支持通过提示进行通用分割任务。
图像分割
S
facebook
203.27k
81
Sam2 Hiera Base Plus
Apache-2.0
SAM 2是FAIR研发的面向图像和视频可提示视觉分割的基础模型,支持通过提示进行高效分割。
图像分割
S
facebook
18.17k
6
Cogflorence 2.1 Large
MIT
该模型是microsoft/Florence-2-large的微调版本,在Ejafa/ye-pop数据集的4万张图像子集上进行了训练,标注由THUDM/cogvlm2-llama3-chat-19B生成,专注于图像转文本任务。
图像生成文本
Transformers
支持多种语言
C
thwri
2,541
22
RADIO L
AM-RADIO是NVIDIA研究院开发的视觉基础模型,采用聚合式架构实现多领域统一表征,适用于各类计算机视觉任务。
图像分割
Transformers
R
nvidia
23.27k
8
RADIO B
RADIO是由NVIDIA研究院开发的视觉基础模型,能够将不同领域的视觉信息统一表征,适用于多种视觉任务。
图像分割
Transformers
R
nvidia
999
3
E5 V
E5-V是基于多模态大语言模型的通用嵌入方法,能够处理文本和图像输入并生成统一的嵌入表示。
多模态对齐
Transformers
E
royokong
5,619
22
Zcabnzh Bp
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长图像描述生成和视觉问答等任务,通过创新的数据过滤机制提升性能
图像生成文本
Transformers
Z
nanxiz
19
0
Cogflorence 2 Large Freeze
MIT
这是microsoft/Florence-2-large模型的微调版本,在Ejafa/ye-pop数据集的38,000张图像子集上训练,使用CogVLM2生成标注,专注于图像转文本任务。
图像生成文本
Transformers
支持多种语言
C
thwri
419
14
4M 21 B
其他
4M是一个通过标记化与掩码技术实现多模态扩展的'任意到任意'基础模型训练框架
多模态融合
4
EPFL-VILAB
324
6
Emotion LLaMA
Apache-2.0
这是一个基于Apache-2.0许可证发布的模型,具体信息暂不可知。
大型语言模型
Transformers
E
ZebangCheng
213
4