多模态视觉问答
Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-Instruct的FP8量化版本,支持视觉-文本输入和文本输出,由Neural Magic优化发布。
图像生成文本
Transformers
英语
Q
parasail-ai
78
1
Qwen2.5 VL 3B Instruct Quantized.w4a16
Apache-2.0
Qwen2.5-VL-3B-Instruct的量化版本,权重量化为INT4,激活量化为FP16,适用于视觉-文本任务的高效推理。
文本生成图像
Transformers
英语
Q
RedHatAI
167
1
Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-Instruct的FP8量化版本,支持视觉-文本输入和文本输出,适用于多模态任务。
文本生成图像
Transformers
英语
Q
RedHatAI
1,837
3
Qwen2 VL 7B Instruct GGUF
Apache-2.0
基于Qwen2-VL-7B-Instruct的多模态模型量化版本,支持图像文本到文本任务,适用于多种量化级别。
图像生成文本
英语
Q
XelotX
201
1
Erax VL 7B V2.0 Preview GGUF
Apache-2.0
EraX-VL-7B-V2.0-Preview 是一个多模态基础模型,支持越南语、英语和中文,适用于多种视觉语言任务。
图像生成文本
支持多种语言
E
mradermacher
162
1
Erax VL 2B V1.5 Q4 K M GGUF
Apache-2.0
这是一个多模态视觉问答模型,支持越南语、英语和中文,基于erax-ai/EraX-VL-2B-V1.5转换的GGUF格式版本。
文本生成图像
支持多种语言
E
Ngoac
55
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
图像生成文本
英语
Q
second-state
195
4
Paligemma2 28b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2语言模型和SigLIP视觉模型能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers
P
google
116
48
Paligemma2 3b Mix 224
PaliGemma 2是Google开发的升级版视觉语言模型,结合了Gemma 2的能力,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
15.23k
28
Minicpm Llama3 V 2 5 GGUF
MiniCPM-Llama3-V-2_5是一个基于Llama3架构的多模态视觉问答模型,支持中英文交互。
文本生成图像
支持多种语言
M
gaianet
112
3
Llama 3.1 8B Vision 378
该项目训练了一个投影模块,用于为Llama 3添加视觉能力,使用了SigLIP技术,并应用于Llama-3.1-8B-Instruct模型。
图像生成文本
Transformers
L
qresearch
203
35
Yi VL 6B Hf
其他
Yi-VL-6B是由01-AI开发的多模态视觉语言模型,支持中文和英文,适用于视觉问答等任务。
图像生成文本
Transformers
支持多种语言
Y
BUAADreamer
55
2
Paligemma 3b Ft Science Qa 448
PaliGemma是由Google开发的30亿参数轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入生成文本输出。
图像生成文本
Transformers
P
google
15
2
Paligemma 3b Mix 448
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入并生成文本输出
图像生成文本
Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本理解与生成。
图像生成文本
Transformers
P
google
519
9
Paligemma 3b Ft Vqav2 448
PaliGemma是Google开发的轻量级视觉语言模型,结合图像理解和文本生成能力,支持多语言任务。
文本生成图像
Transformers
P
google
121
17
Paligemma 3b Ft Ocrvqa 448
PaliGemma是Google开发的多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
图像生成文本
Transformers
P
google
365
6
Excalibur 7b DPO
Apache-2.0
Excalibur-7b-DPO是基于Excalibur-7b基础模型通过直接偏好优化(DPO)微调的大语言模型,专注于提升对话质量和视觉应用场景表现。
大型语言模型
Transformers
E
InferenceIllusionist
22
8
Firellava 13b
FireLLaVA-13B是基于开源大语言模型生成指令数据训练的视觉语言模型,支持图像理解和文本生成任务。
图像生成文本
Transformers
F
fireworks-ai
59
55