多模态对话
VL Rethinker 72B Mlx 4bit
Apache-2.0
VL-Rethinker-72B的4位量化版本,适用于苹果设备的MLX框架,支持视觉问答任务。
文本生成图像
英语
V
TheCluster
14
0
Gemma 3 12b It GPTQ 4b 128g
该模型是对google/gemma-3-12b-it进行INT4量化的版本,通过GPTQ算法将参数从16比特降至4比特,显著减少了磁盘空间和GPU内存需求。
图像生成文本
Transformers
G
ISTA-DASLab
1,175
2
Vora 7B Instruct
VoRA是一个基于7B参数的视觉-语言模型,专注于图像文本到文本的转换任务。
图像生成文本
Transformers
V
Hon-Wong
154
12
Vora 7B Base
VoRA是一个基于7B参数的视觉语言模型,能够处理图像和文本输入,生成文本输出。
图像生成文本
Transformers
V
Hon-Wong
62
4
Qwen2.5 VL 7B Instruct Q4 K M GGUF
Apache-2.0
这是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本,适用于多模态任务,支持图像和文本输入。
图像生成文本
英语
Q
PatataAliena
69
1
Q Sit
MIT
Q-SiT Mini是一个轻量级的图像质量评估与对话模型,专注于图像质量分析和评分。
图像生成文本
Transformers
Q
zhangzicheng
79
0
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf 是一个基于视频的多模态模型,能够处理视频和文本输入,生成文本输出。
视频生成文本
Safetensors
英语
L
FriendliAI
30
0
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ 是使用 autoawq 对 InternVL2_5-4B 进行 AWQ 量化的版本,支持多语言和多模态任务。
图像生成文本
Transformers
其他
I
rootonchair
29
2
Qwen2.5 VL 7B Instruct GPTQ Int4
Apache-2.0
Qwen2.5-VL-7B-Instruct-GPTQ-Int4是基于Qwen2.5-VL-7B-Instruct模型进行非官方GPTQ-Int4量化的版本,支持图文到文本的多模态任务。
图像生成文本
Transformers
支持多种语言
Q
hfl
872
3
Internvl 2 5 HiCo R64
Apache-2.0
基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型,通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM
视频生成文本
Transformers
英语
I
OpenGVLab
252
2
Internlm Xcomposer2d5 7b Chat
其他
InternLM-XComposer2.5-Chat是基于InternLM-XComposer2.5-7B训练的对话模型,在多模态指令跟随和开放式对话能力方面有显著提升。
文本生成图像
PyTorch
I
internlm
87
5
QVQ 72B Preview Abliterated GPTQ Int8
其他
这是QVQ-72B-Preview-abliterated模型的GPTQ量化8位版本,支持图像文本到文本的转换任务。
图像生成文本
Transformers
英语
Q
huihui-ai
48
1
Apollo LMMs Apollo 7B T32
Apache-2.0
Apollo是一系列专注于视频理解的大型多模态模型,擅长处理长达一小时的视频内容,支持复杂视频问答和多轮对话。
视频生成文本
Transformers
英语
A
GoodiesHere
67
55
Apollo LMMs Apollo 1 5B T32
Apache-2.0
Apollo 是一系列专注于视频理解的大型多模态模型,擅长处理长视频内容理解、时序推理和复杂视频问答等任务。
视频生成文本
A
GoodiesHere
37
10
Llama3.1 Typhoon2 Audio 8b Instruct
台风2-音频版是一个端到端的语音转语音模型架构,能够处理音频、语音和文本输入,并同时生成文本和语音输出。
文本生成音频
Transformers
支持多种语言
L
scb10x
664
9
Mini InternVL2 1B DA DriveLM
MIT
Mini-InternVL2-DA-RS是针对遥感图像领域优化的多模态模型,基于Mini-InternVL架构,通过领域适配框架微调,在遥感图像理解任务上表现优异。
图像生成文本
Transformers
其他
M
OpenGVLab
61
1
VARCO VISION 14B HF
VARCO-VISION-14B是一款强大的英韩视觉语言模型,支持图像和文本输入,生成文本输出,具备定位、指代和OCR功能。
图像生成文本
Transformers
支持多种语言
V
NCSOFT
449
24
Chatrex 7B
ChatRex是一款擅长感知的多模态大语言模型,能在回答问题的同时将答案关联到具体对象。
图像生成文本
Safetensors
英语
C
IDEA-Research
825
14
Glm Edge V 5b
其他
GLM-Edge-V-5B是一个50亿参数的多模态模型,支持图像和文本输入,能够执行图像理解和文本生成任务。
图像生成文本
G
THUDM
4,357
12
Glm Edge V 2b
其他
GLM-Edge-V-2B是一个基于Pytorch框架的图像文本到文本模型,支持中文处理。
图像生成文本
G
THUDM
23.43k
11
Mmduet
MIT
MMDuet是一个支持视频播放时实时交互的VideoLLM模型,专注于时间敏感的视频理解任务。
视频生成文本
英语
M
wangyueqian
69
4
Aria Sequential Mlp Bnb Nf4
Apache-2.0
基于Aria-sequential_mlp的BitsAndBytes NF4量化版本,适用于图像文本到文本任务,显存需求约15.5 GB。
图像生成文本
Transformers
A
leon-se
76
11
Aria Sequential Mlp FP8 Dynamic
Apache-2.0
基于Aria-sequential_mlp的FP8动态量化模型,适用于图像文本到文本任务,显存需求约30GB。
图像生成文本
Transformers
A
leon-se
94
6
Mplug Owl3 1B 241014
Apache-2.0
mPLUG-Owl3 是一款先进的多模态大语言模型,专注于解决长图像序列理解的挑战,通过超注意力机制显著提升处理速度和序列长度。
文本生成图像
英语
M
mPLUG
617
2
Mplug Owl3 2B 241014
Apache-2.0
mPLUG-Owl3 是一款先进的多模态大语言模型,专注于解决长图像序列理解的挑战,通过超注意力机制显著提升处理速度和序列长度。
文本生成图像
Safetensors
英语
M
mPLUG
2,680
6
Videochat2 HD Stage4 Mistral 7B Hf
MIT
VideoChat2-HD-hf是一个基于Mistral-7B的多模态视频理解模型,专注于视频文本转换任务。
视频生成文本
V
OpenGVLab
393
3
Qwen2 Vl Tiny Random
这是一个基于Qwen2-VL-7B-Instruct配置随机初始化的小型调试模型,用于视觉语言任务
图像生成文本
Transformers
Q
yujiepan
27
1
Internvideo2 Chat 8B InternLM2 5
MIT
InternVideo2-Chat-8B-InternLM2.5是一个视频-文本多模态模型,通过整合InternVideo2视频编码器与大型语言模型(LLM)来增强视频理解和人机交互能力。
视频生成文本
I
OpenGVLab
60
7
Qwen2 Audio 7B Instruct 4bit
这是Qwen2-Audio-7B-Instruct的4位量化版本,基于阿里巴巴云原版Qwen模型开发,是一个音频-文本多模态大语言模型。
音频生成文本
Transformers
Q
alicekyting
1,090
6
Mplug Owl3 7B 240728
Apache-2.0
mPLUG-Owl3 是一款前沿的多模态大语言模型,专为解决长图像序列理解难题而设计,支持处理单图、多图和视频任务。
文本生成图像
英语
M
mPLUG
4,823
39
Banban Beta V2 Gguf
AI虚拟主播板板模型,专为NTNU VLSI社团设计的虚拟主播助手,具有图像文本到文本的能力。
图像生成文本
支持多种语言
B
asadfgglie
97
1
Internvideo2 Chat 8B HD
MIT
InternVideo2-Chat-8B-HD 是一个结合了大型语言模型和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够处理高清视频输入。
视频生成文本
I
OpenGVLab
190
16
Llava Saiga 8b
Apache-2.0
LLaVA-Saiga-8b是基于IlyaGusev/saiga_llama3_8b模型开发的视觉-语言模型(VLM),主要适配俄语任务,但仍具备英语处理能力。
图像生成文本
Transformers
支持多种语言
L
deepvk
205
16
Tinyllava 1.1b V0.1
Apache-2.0
基于TinyLlama-1.1B的轻量级视觉问答模型,通过BakLlava代码库训练而成,支持图像内容理解和问答任务。
文本生成图像
Transformers
T
TitanML
27
0
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip 是一个实验性的视觉语言模型,能够用日语和英语回答关于图像的问题。
图像生成文本
Transformers
支持多种语言
L
cyberagent
3,930
25
Paligemma 3B Chat V0.2
基于google/paligemma-3b-mix-448微调的多模态对话模型,专为多轮对话场景优化
文本生成图像
Transformers
支持多种语言
P
BUAADreamer
80
9
Vision 8B MiniCPM 2 5 Uncensored And Detailed 4bit
MiniCPM-Llama3-V 2.5 的 int4 量化版本,显著降低 GPU 显存占用(约 9GB)
文本生成图像
Transformers
V
sdasd112132
330
30
Cogvlm2 Llama3 Chat 19B Int4
其他
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态对话模型,支持中英文,具备8K上下文长度和1344*1344分辨率图像处理能力。
文本生成图像
Transformers
英语
C
THUDM
467
28
Minicpm Llama3 V 2 5 Int4
MiniCPM-Llama3-V 2.5的int4量化版本,显著降低GPU显存占用至约9GB,适用于视觉问答任务。
文本生成图像
Transformers
M
openbmb
17.97k
73
360VL 70B
Apache-2.0
360VL是基于LLama3语言模型开发的开源大型多模态模型,具备强大的图像理解和双语文本支持能力。
文本生成图像
Transformers
支持多种语言
3
qihoo360
103
10