高分辨率图像处理
Unime LLaVA OneVision 7B
MIT
UniME是一个基于多模态大模型的通用嵌入学习框架,通过文本判别知识蒸馏和硬负样本增强的指令调优策略,显著提升了多模态嵌入能力。
多模态对齐
Transformers
英语
U
DeepGlint-AI
376
2
Webssl Dino2b Heavy2b 224
20亿参数的自监督视觉Transformer模型,基于严格筛选的网络图像数据训练,特别优化图表和文本理解能力
图像分类
Transformers
W
facebook
24
0
Unime LLaVA 1.6 7B
MIT
UniME是一个基于多模态大模型的通用嵌入学习模型,采用336×336图像分辨率训练,在MMEB排行榜上位列第一。
图像生成文本
Transformers
英语
U
DeepGlint-AI
188
3
PE Core B16 224
Apache-2.0
感知编码器是通过简单视觉-语言学习训练的最先进的图像和视频理解编码器,在多种视觉任务上实现了最先进的性能。
文本生成图像
P
facebook
9,663
11
Upernet Swin Large
MIT
基于Swin Transformer架构的UPerNet语义分割模型,适用于高精度图像分割任务
图像分割
U
smp-hub
110
0
Upernet Swin Small
MIT
基于Swin Transformer小型架构的UPerNet语义分割模型,适用于ADE20K等场景解析任务
图像分割
Safetensors
U
smp-hub
100
0
Upernet Swin Tiny
MIT
UPerNet是一个基于ConvNeXt-Tiny架构的语义分割模型,适用于图像分割任务。
图像分割
Safetensors
U
smp-hub
191
0
Style 250412.vit Base Patch16 Siglip 384.v2 Webli
基于Vision Transformer架构的视觉模型,采用SigLIP(Sigmoid Loss for Language-Image Pretraining)训练方法,适用于图像理解任务。
图像分类
Transformers
S
p1atdev
66
0
PE Core L14 336
Apache-2.0
Meta开发的大规模视觉编码器模型,通过对比预训练和合成视频数据微调,在各类视觉任务中达到最先进性能
文本生成图像
P
facebook
11.52k
34
Segformer B5 Finetuned Coralscapes 1024 1024
Apache-2.0
针对珊瑚礁语义分割任务优化的SegFormer模型,在1024x1024分辨率下对Coralscapes数据集进行微调
图像分割
Transformers
S
EPFL-ECEO
821
0
Segformer B2 Finetuned Coralscapes 1024 1024
Apache-2.0
这是一个基于SegFormer架构的语义分割模型,专门针对珊瑚礁生态系统的图像分割任务进行了优化,在Coralscapes数据集上微调。
图像分割
Transformers
S
EPFL-ECEO
139
0
Aimv2 3b Patch14 224.apple Pt
AIM-v2是一个高效的图像编码器模型,兼容timm框架,适用于计算机视觉任务。
图像分类
Transformers
A
timm
50
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIP模型是基于OpenCLIP和timm模型权重的视觉语言模型,支持零样本图像分类等任务。
图像分类
E
timm
165
0
Vit Huge Patch14 Clip 378.dfn5b
其他
DFN5B-CLIP的视觉编码器部分,基于ViT-Huge架构,使用378x378分辨率图像训练的CLIP模型
图像分类
Transformers
V
timm
461
0
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
基于SigLIP图像编码器的视觉模型,带全局平均池化,是PaliGemma2模型的一部分
文本生成图像
Transformers
V
timm
57
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
基于SigLIP图像编码器的视觉语言模型,采用全局平均池化处理,适用于多模态任务。
文本生成图像
Transformers
V
timm
15
0
Segformer B3 1024x1024 City 160k
其他
基于Segformer架构的语义分割模型,针对Cityscapes数据集进行了优化
图像分割
S
smp-hub
14
0
Segformer B0 1024x1024 City 160k
其他
基于Segformer架构的轻量级语义分割模型,预训练于Cityscapes数据集
图像分割
S
smp-hub
269
1
Segformer B2 1024x1024 City 160k
其他
基于Segformer架构的语义分割模型,专门针对Cityscapes数据集进行优化
图像分割
Safetensors
S
smp-hub
651
0
Segformer B1 512x512 Ade 160k
其他
基于PyTorch的Segformer模型,用于语义分割任务,在ADE20K数据集上预训练
图像分割
S
smp-hub
20
0
Mplug Owl3 7B 241101
Apache-2.0
mPLUG-Owl3是一款先进的多模态大语言模型,专注于解决长图像序列理解问题,通过超注意力机制显著提升处理速度和序列长度支持。
文本生成图像
英语
M
mPLUG
302
10
Clip Finetuned Csu P14 336 E3l57 L
该模型是基于openai/clip-vit-large-patch14-336微调的版本,主要用于图像-文本匹配任务。
文本生成图像
Transformers
C
kevinoli
31
0
Beit Base Patch16 384.in1k Ft Fungitastic 384
基于BEiT架构的丹麦真菌分类模型,专门用于识别和分类真菌物种。
图像分类
PyTorch
B
BVRA
456
1
Idefics2 8b Chatty
Apache-2.0
Idefics2 是一个开放的多模态模型,能够接受任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers
英语
I
HuggingFaceM4
617
94
Llava Jp 1.3b V1.1
LLaVA-JP是一个支持日语的多模态视觉语言模型,能够理解和生成关于输入图像的描述和对话。
图像生成文本
Transformers
日语
L
toshi456
90
11
Internvit 6B 448px V1 5
MIT
InternViT-6B-448px-V1-5是基于InternViT-6B-448px-V1-2微调的视觉基础模型,具备强大的鲁棒性、OCR能力及高分辨率处理能力。
文本生成图像
Transformers
I
OpenGVLab
155
79
Idefics2 8b Base
Apache-2.0
Idefics2 是 Hugging Face 开发的开源多模态模型,能够处理图像和文本输入并生成文本输出,在 OCR、文档理解和视觉推理方面表现优异。
图像生成文本
Transformers
英语
I
HuggingFaceM4
1,409
28
Vitamin XL 256px
MIT
ViTamin-XL-256px是基于ViTamin架构的视觉语言模型,专为高效视觉特征提取和多模态任务设计,支持高分辨率图像处理。
文本生成图像
Transformers
V
jienengchen
655
1
Vitamin XL 384px
MIT
ViTamin-XL-384px 是一个基于 ViTamin 架构的大规模视觉语言模型,专为视觉语言任务设计,支持高分辨率图像处理和多模态特征提取。
图像生成文本
Transformers
V
jienengchen
104
20
Siglip So400m 14 980 Flash Attn2 Navit
Apache-2.0
基于SigLIP的视觉模型,通过插值位置嵌入提升最大分辨率至980x980,并实现NaViT策略支持可变分辨率和保持宽高比的图像处理
文本生成图像
Transformers
S
HuggingFaceM4
4,153
46
Chattruth 7B
ChatTruth-7B是基于Qwen-VL架构优化的多语言视觉-语言模型,增强了大分辨率图像处理能力并引入还原模块降低计算开销
图像生成文本
Transformers
支持多种语言
C
mingdali
73
13
Sdxl Instructpix2pix 768
基于Stable Diffusion XL (SDXL)进行指令微调的图像编辑模型,采用InstructPix2Pix方法,支持通过自然语言指令编辑图像。
图像生成
S
diffusers
15.88k
50
Vit Small Patch14 Dinov2.lvd142m
Apache-2.0
基于视觉Transformer(ViT)的图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练
图像分类
Transformers
V
timm
35.85k
3
Vit Base Patch16 224 In21k Eurosat
Apache-2.0
基于Google Vision Transformer (ViT)架构的预训练模型,在EuroSat数据集上进行了微调,适用于遥感图像分类任务。
图像分类
Transformers
V
ingeniou
25
0
Segformer B5 Finetuned Cityscapes 1024 1024
其他
在1024x1024分辨率下对CityScapes数据集进行微调的SegFormer语义分割模型,采用分层Transformer编码器和轻量级全MLP解码头架构。
图像分割
Transformers
S
nvidia
31.18k
24
Segformer B5 Finetuned Ade 640 640
其他
SegFormer是一个基于Transformer架构的语义分割模型,在ADE20k数据集上进行了微调,适用于图像分割任务。
图像分割
Transformers
S
nvidia
42.32k
39