多模态问答
Llava 1.5 7b Hf Q4 K M GGUF
该模型是基于llava-hf/llava-1.5-7b-hf转换的GGUF格式模型,支持图像文本生成任务。
图像生成文本
英语
L
Marwan02
30
1
Videochat R1 7B Caption
Apache-2.0
VideoChat-R1_7B_caption 是一个基于 Qwen2-VL-7B-Instruct 的多模态视频文本生成模型,专注于视频内容理解和描述生成。
视频生成文本
Transformers
英语
V
OpenGVLab
48
1
Vica
Apache-2.0
ViCA-7B是一款专为室内视频环境中的视觉空间推理而微调的视觉语言模型,基于LLaVA-Video-7B-Qwen2架构构建,使用ViCA-322K数据集进行训练,强调结构化空间标注和基于指令的复杂推理任务。
视频生成文本
Transformers
英语
V
nkkbr
41
0
VL Rethinker 7B Mlx 4bit
Apache-2.0
VL-Rethinker-7B 4位MLX量化版是基于TIGER-Lab/VL-Rethinker-7B模型的量化版本,专为苹果设备优化,支持视觉问答任务。
文本生成图像
英语
V
TheCluster
14
0
Vilt Gqa Ft
基于ViLT架构的视觉语言模型,专为GQA视觉推理任务微调
文本生成图像
Transformers
V
phucd
62
0
VL Rethinker 7B 6bit
Apache-2.0
这是一个基于Qwen2.5-VL-7B-Instruct的多模态模型,支持视觉问答任务,已转换为MLX格式以便在Apple芯片上高效运行。
文本生成图像
Transformers
英语
V
mlx-community
19
0
VL Rethinker 7B 8bit
Apache-2.0
VL-Rethinker-7B-8bit 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型,支持视觉问答任务。
文本生成图像
Transformers
英语
V
mlx-community
21
0
VL Rethinker 7B Fp16
Apache-2.0
该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型,支持视觉问答任务。
文本生成图像
Transformers
英语
V
mlx-community
17
0
VL Rethinker 72B 8bit
Apache-2.0
该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型,支持8位量化,适用于视觉问答任务。
文本生成图像
Transformers
英语
V
mlx-community
18
0
VL Rethinker 72B 4bit
Apache-2.0
VL-Rethinker-72B-4bit是一个基于Qwen2.5-VL-7B-Instruct的多模态模型,支持视觉问答任务,已转换为MLX格式以便在苹果设备上高效运行。
文本生成图像
Transformers
英语
V
mlx-community
26
0
Gemma 3 4b It Abliterated Q4 0 GGUF
该模型是mlabonne/gemma-3-4b-it-abliterated的GGUF格式转换版本,结合了x-ray_alpha的视觉组件,提供更流畅的多模态体验。
图像生成文本
G
BernTheCreator
160
1
Llavaction 7B
LLaVAction是一个面向动作识别的多模态大语言模型评估与训练框架,基于Qwen2语言模型架构,支持第一人称视角视频理解。
视频生成文本
Transformers
英语
L
MLAdaptiveIntelligence
149
1
Tinyllava Video Qwen2.5 3B Group 16 512
Apache-2.0
TinyLLaVA-Video是基于Qwen2.5-3B和siglip-so400m-patch14-384构建的视频理解模型,采用分组重采样器处理视频帧
视频生成文本
T
Zhang199
76
0
Videochat Flash Qwen2 5 7B InternVideo2 1B
Apache-2.0
基于InternVideo2-1B和Qwen2.5-7B构建的多模态视频文本模型,每帧仅使用16个标记,支持长达10,000帧的输入序列。
文本生成视频
Transformers
英语
V
OpenGVLab
193
4
Asagi 8B
Apache-2.0
Asagi-8B是一个大规模的日语视觉与语言模型(VLM),基于广泛的日语数据集训练,整合了多样化的数据来源。
图像生成文本
Transformers
日语
A
MIL-UT
58
4
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型,支持思维链推理能力,通过对话模板训练视觉模型。
图像生成文本
Transformers
D
mehmetkeremturkcan
25
2
Erax VL 7B V2.0 Preview I1 GGUF
Apache-2.0
这是对EraX-VL-7B-V2.0-Preview模型进行加权/重要性矩阵量化的结果,提供多种量化版本以适应不同需求
图像生成文本
支持多种语言
E
mradermacher
246
1
Videochat Flash Qwen2 7B Res224
Apache-2.0
基于UMT-L和Qwen2-7B构建的多模态模型,支持长视频理解,每帧仅使用16个标记,上下文窗口扩展至128k。
视频生成文本
Transformers
英语
V
OpenGVLab
80
6
Videochat Flash Qwen2 5 2B Res448
Apache-2.0
VideoChat-Flash-2B是基于UMT-L(300M)和Qwen2.5-1.5B构建的多模态模型,支持视频文本转文本任务,仅使用每帧16个标记,并扩展上下文窗口至128k。
视频生成文本
Transformers
英语
V
OpenGVLab
904
18
Erax VL 7B V2.0 Preview
Apache-2.0
EraX-VL-7B-V2.0-Preview是一款强大的多模态模型,专为OCR和视觉问答设计,擅长处理越南语等多种语言,在医疗表格、发票等文档识别上表现突出。
图像生成文本
Transformers
支持多种语言
E
erax-ai
476
22
Lava Phi
MIT
基于微软Phi-1.5架构的视觉语言模型,结合CLIP实现图像处理能力
图像生成文本
Transformers
支持多种语言
L
sagar007
17
0
Videorefer 7B
Apache-2.0
VideoRefer-7B是一个多模态大语言模型,专注于视频问答任务,能够理解和分析视频中的时空物体关系。
文本生成视频
Transformers
英语
V
DAMO-NLP-SG
87
4
Llava SpaceSGG
Apache-2.0
LLaVA-SpaceSGG是基于LLaVA-v1.5-13b的视觉问答模型,专注于场景图生成任务,能够理解图像内容并生成结构化场景描述。
文本生成图像
Safetensors
英语
L
wumengyangok
36
0
Longvu Qwen2 7B
Apache-2.0
LongVU是基于Qwen2-7B的多模态模型,专注于长视频语言理解任务,采用时空自适应压缩技术。
视频生成文本
L
Vision-CAIR
230
69
Mmalaya2
Apache-2.0
基于InternVL-Chat-V1-5微调的多模态模型,在MMBench基准测试中表现优异
图像生成文本
M
DataCanvas
26
2
Idefics3 8B Llama3
Apache-2.0
Idefics3是一个开源的多模态模型,能够处理任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers
英语
I
HuggingFaceM4
45.86k
277
Table Llava V1.5 7b
Table LLaVA 7B 是一款开源多模态聊天机器人,专为理解各类表格图像并完成多样化表格相关任务而设计。
图像生成文本
Transformers
英语
T
SpursgoZmy
165
12
Idefics2 8b Chatty
Apache-2.0
Idefics2 是一个开放的多模态模型,能够接受任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers
英语
I
HuggingFaceM4
617
94
Idefics2 8b
Apache-2.0
Idefics2 是一个开源的多模态模型,能够接受任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers
英语
I
HuggingFaceM4
14.99k
603
Idefics2 8b Base
Apache-2.0
Idefics2 是 Hugging Face 开发的开源多模态模型,能够处理图像和文本输入并生成文本输出,在 OCR、文档理解和视觉推理方面表现优异。
图像生成文本
Transformers
英语
I
HuggingFaceM4
1,409
28
Heron Chat Git Ja Stablelm Base 7b V1
一款能够就输入图像进行对话的视觉语言模型,支持日语交互
图像生成文本
Transformers
日语
H
turing-motors
54
2
Llava Phi2
MIT
Llava-Phi2是基于Phi2的多模态实现,结合了视觉和语言处理能力,适用于图像文本到文本的任务。
图像生成文本
Transformers
英语
L
RaviNaik
153
6
Monkey Chat
猴模型是一种大型多模态模型,通过提升图像分辨率和改进文本标签方法,在多项视觉任务中表现优异。
图像生成文本
Transformers
M
echo840
179
16
Chattruth 7B
ChatTruth-7B是基于Qwen-VL架构优化的多语言视觉-语言模型,增强了大分辨率图像处理能力并引入还原模块降低计算开销
图像生成文本
Transformers
支持多种语言
C
mingdali
73
13
Heron Chat Git Ja Stablelm Base 7b V0
Heron GIT Japanese StableLM Base 7B 是一个能够就输入图像进行对话的视觉语言模型。
图像生成文本
Transformers
日语
H
turing-motors
57
1
Idefics 9b
其他
IDEFICS是一个开源的多模态模型,能够处理图像和文本输入并生成文本输出,是Deepmind Flamingo模型的开源复现版本。
图像生成文本
Transformers
英语
I
HuggingFaceM4
3,676
46
Instructblip Vicuna 13b
其他
InstructBLIP是BLIP-2的视觉指令调优版本,基于Vicuna-13b语言模型,用于视觉语言任务。
图像生成文本
Transformers
英语
I
Salesforce
1,251
42
Instructblip Flan T5 Xxl
MIT
InstructBLIP是BLIP-2经过视觉指令调优的版本,能够根据图像和文本指令生成描述或回答
图像生成文本
Transformers
英语
I
Salesforce
937
21
Video Blip Flan T5 Xl Ego4d
MIT
VideoBLIP是BLIP-2的增强版本,能够处理视频数据,采用Flan T5-xl作为语言模型主干。
视频生成文本
Transformers
英语
V
kpyu
40
3
Video Blip Opt 2.7b Ego4d
MIT
VideoBLIP是BLIP-2的增强版本,能够处理视频数据,采用OPT-2.7b作为语言模型主干。
视频生成文本
Transformers
英语
V
kpyu
429
16