视觉语言模型
Bespoke MiniChart 7B
由Bespoke Labs开发的7B参数规模开源图表理解视觉语言模型,在图表问答任务上超越Gemini-1.5-Pro等闭源模型
文本生成图像
英语
B
bespokelabs
437
12
Instancecap Captioner
其他
基于Qwen2.5-VL-7B-Instruct在instancevid数据集上微调的视觉语言模型,专注于实例级图像描述生成
图像生成文本
Transformers
I
AnonMegumi
14
1
Dreamer 7B
Apache-2.0
WebDreamer 是一个规划框架,能够为现实世界中的网页智能体任务实现高效且有效的规划。
图像生成文本
Transformers
英语
D
osunlp
62
3
Gemma 3 27b It GGUF
Gemma 3 27B参数的GGUF量化版本,支持图像文本交互任务
文本生成图像
G
Mungert
4,034
6
STEVE R1 7B SFT I1 GGUF
Apache-2.0
这是对Fanbin/STEVE-R1-7B-SFT模型进行的加权/矩阵量化版本,适用于资源受限环境。
文本生成图像
英语
S
mradermacher
394
0
Gemma 3 27b Pt Qat Q4 0 Gguf
Gemma是谷歌推出的轻量级尖端开放模型家族,基于与Gemini模型相同的研究和技术构建。
图像生成文本
G
google
633
24
Gemma 3 4b It GGUF
Gemma 3是谷歌推出的轻量级开源多模态模型,支持文本和图像输入,生成文本输出,具有128K上下文窗口和140+语言支持。
图像生成文本
G
ggml-org
9,023
25
Q Sit
MIT
Q-SiT Mini是一个轻量级的图像质量评估与对话模型,专注于图像质量分析和评分。
图像生成文本
Transformers
Q
zhangzicheng
79
0
Llama 3 2 11b Vision Electrical Components Instruct
MIT
Llama 3.2 11B Vision Instruct 是一个结合视觉和语言的多模态模型,支持图像转文本任务。
图像生成文本
英语
L
ankitelastiq
22
1
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf 是一个基于视频的多模态模型,能够处理视频和文本输入,生成文本输出。
视频生成文本
Safetensors
英语
L
FriendliAI
30
0
Internlm XComposer2 Enhanced
其他
基于InternLM2开发的视觉语言大模型,具备卓越的图文理解与创作能力
文本生成图像
I
Coobiw
14
0
Libra Llava Med V1.5 Mistral 7b
Apache-2.0
LLaVA-Med是一个专为生物医学应用优化的开源大型视觉语言模型,基于LLaVA框架,通过课程学习增强,并针对开放式生物医学问答任务进行了微调。
图像生成文本
Transformers
L
X-iZhang
180
1
Florence 2 Base Castollux V0.4
基于microsoft/Florence-2-base微调的图像描述生成模型,专注于提升描述质量和格式
图像生成文本
Transformers
英语
F
PJMixers-Images
23
1
Llava Llama3
LLaVA-Llama3是基于Llama-3的多模态模型,支持图像与文本的联合处理。
图像生成文本
L
chatpig
360
1
UI TARS 7B DPO
Apache-2.0
UI-TARS 是新一代原生图形用户界面(GUI)智能体模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
图像生成文本
Transformers
支持多种语言
U
ByteDance-Seed
38.74k
206
UI TARS 2B SFT
Apache-2.0
UI-TARS是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
图像生成文本
Transformers
支持多种语言
U
bytedance-research
5,792
19
UI TARS 2B SFT
Apache-2.0
UI-TARS 是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力,无缝地与图形用户界面交互。
图像生成文本
Transformers
支持多种语言
U
ByteDance-Seed
5,553
19
Deqa Score Mix3
MIT
DeQA-Score-Mix3是基于MAGAer13/mplug-owl2-llama2-7b基础模型微调的无参考图像质量评估模型,在多个数据集上表现出色。
图像生成文本
Transformers
英语
D
zhiyuanyou
4,177
2
Colqwen2 7b V1.0
基于Qwen2-VL-7B-Instruct与ColBERT策略的视觉检索模型,支持多向量文本与图像表示
文本生成图像
英语
C
yydxlv
25
1
Videochat TPO
MIT
基于论文《任务偏好优化:通过视觉任务对齐改进多模态大语言模型》研发的多模态大语言模型
文本生成视频
Transformers
V
OpenGVLab
18
5
Olympus
Apache-2.0
Olympus是一个通用任务路由系统,专为计算机视觉任务设计,能够处理20种不同的视觉任务,并通过任务路由机制实现高效的多任务处理。
文本生成图像
Transformers
英语
O
Yuanze
231
2
Llava Critic 7b Hf
这是一个与transformers兼容的视觉语言模型,具备图像理解和文本生成能力
文本生成图像
Transformers
L
FuryMartin
21
1
BLIP Radiology Model
BLIP 是一个基于 Transformer 的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers
B
daliavanilla
16
0
Colqwen2 V0.1
Apache-2.0
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能高效通过视觉特征索引文档
文本生成图像
Safetensors
英语
C
vidore
21.25k
170
Cogflorence 2.2 Large
MIT
该模型是microsoft/Florence-2-large的微调版本,在Ejafa/ye-pop数据集的4万张图像子集上进行训练,标注文本由THUDM/cogvlm2-llama3-chat-19B生成,适用于图像转文本任务。
图像生成文本
Transformers
支持多种语言
C
thwri
20.64k
33
Lumina Mgpt 7B 512
Lumina-mGPT是一个多模态自回归模型家族,擅长执行多种视觉与语言任务,特别是根据文本描述生成灵活逼真的图像。
文本生成图像
L
Alpha-VLLM
1,185
4
Cogflorence 2 Large Freeze
MIT
这是microsoft/Florence-2-large模型的微调版本,在Ejafa/ye-pop数据集的38,000张图像子集上训练,使用CogVLM2生成标注,专注于图像转文本任务。
图像生成文本
Transformers
支持多种语言
C
thwri
419
14
Tic CLIP Bestpool Sequential
其他
TiC-CLIP是基于TiC-DataComp-Yearly数据集训练的视觉语言模型,采用持续学习策略保持模型与最新数据同步
文本生成图像
T
apple
280
0
Tic CLIP Bestpool Oracle
其他
TiC-CLIP是基于OpenCLIP改进的视觉语言模型,专注于时间持续学习,训练数据涵盖2014至2022年
文本生成图像
T
apple
44
0
Llava Phi 3 Mini Gguf
LLaVA-Phi-3-mini 是基于 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微调的 LLaVA 模型,专注于图像转文本任务。
图像生成文本
L
xtuner
1,676
133
Moondream Next
moondream的预发布版本,主要用于内部测试。
大型语言模型
Transformers
M
vikhyatk
153
40
Vlrm Blip2 Opt 2.7b
MIT
通过强化学习方法微调的BLIP-2 OPT-2.7B模型,能够生成长且全面的图像描述
图像生成文本
Transformers
英语
V
sashakunitsyn
398
17
Blip Finetuned Fashion
Bsd-3-clause
该模型是基于Salesforce/blip-vqa-base微调的视觉问答模型,专注于时尚领域
文本生成图像
Transformers
B
Ornelas
2,281
0
Infimm Hd
InfiMM-HD是一个高分辨率多模态模型,能够理解和生成结合图像和文本的内容。
图像生成文本
Transformers
英语
I
Infi-MM
17
27
Tecoa2 Clip
MIT
基于OpenAI CLIP初始化的视觉语言模型,在ImageNet上进行监督式对抗微调,具有鲁棒性增强特性
文本生成图像
T
chs20
53
1
Fare2 Clip
MIT
基于OpenAI CLIP初始化的视觉语言模型,通过无监督对抗微调提升鲁棒性
文本生成图像
F
chs20
543
2
Fare4 Clip
MIT
基于OpenAI CLIP初始化的视觉语言模型,通过无监督对抗微调提升鲁棒性
文本生成图像
F
chs20
45
1
Internlm Xcomposer2 7b 4bit
其他
书生·浦语2是基于InternLM2的视觉语言大模型(VLLM),具备先进的图文理解与创作能力。
图像生成文本
Transformers
I
internlm
74
10
Internlm Xcomposer2 Vl 7b 4bit
其他
基于InternLM2的视觉语言大模型,具备卓越的图文理解与创作能力
图像生成文本
Transformers
I
internlm
1,635
27
Quilt Llava V1.5 7b
Quilt-LLaVA 是基于组织病理学教育视频图像和GPT生成的多模态指令跟随数据,对LLaMA/Vicuna进行微调的开源聊天机器人。
文本生成图像
Transformers
Q
wisdomik
618
6