多模态学习
Openvision Vit So400m Patch14 384
Apache-2.0
OpenVision是一个完全开放、经济高效的高级视觉编码器家族,用于多模态学习。
多模态融合
O
UCSC-VLAA
238
0
Openvision Vit Base Patch8 384
Apache-2.0
OpenVision是一个完全开源且经济高效的先进视觉编码器家族,专为多模态学习设计。
多模态融合
Transformers
O
UCSC-VLAA
47
0
Openvision Vit Base Patch16 160
Apache-2.0
OpenVision是一个完全开源、经济高效的高级视觉编码器家族,用于多模态学习。
多模态融合
O
UCSC-VLAA
15
0
Openvision Vit Small Patch8 384
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
21
0
Openvision Vit Small Patch16 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
图像增强
O
UCSC-VLAA
17
0
Med Dis B
一个基于PyTorch的动作识别模型,适用于机器人技术领域
视频处理
M
therarelab
14
0
Wedgit Stack Single Fixed
一个基于扩散策略的机器人控制模型,通过PyTorchModelHubMixin集成发布
多模态融合
W
jclinton1
76
0
Instruct CLIP
Apache-2.0
InstructCLIP是一种通过对比学习自动优化数据的模型,旨在提升指令引导的图像编辑效果。
文本生成图像
英语
I
SherryXTChen
74
2
Genmedclip B 16 PMB
MIT
基于open_clip库的零样本图像分类模型,专注于医疗领域的图像分析
图像分类
G
wisdomik
408
0
Genmedclip
MIT
GenMedClip 是一个基于 open_clip 库的零样本图像分类模型,专注于医学图像分析。
图像分类
G
wisdomik
40
0
Moe LLaVA Qwen 1.8B 4e
Apache-2.0
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
文本生成图像
Transformers
M
LanguageBind
176
14
Echo Clip R
MIT
一个基于开放剪辑库的零样本图像分类模型,支持多种视觉任务
图像分类
E
mkaichristensen
547
4
Git 20
MIT
基于微软GIT框架的多模态模型,专注于从学生作业图像中提取文本并生成教师反馈
图像生成文本
Transformers
支持多种语言
G
uf-aice-lab
18
1
Git Base Textvqa
MIT
基于microsoft/git-base-textvqa在textvqa数据集上微调的视觉问答模型,擅长处理包含文本的图像问答任务
大型语言模型
Transformers
其他
G
Hellraiser24
19
0
Dof Passport 1
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
图像生成文本
Transformers
D
Sebabrata
16
0