多模态大模型
INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized
Apache-2.0
基于Qwen2.5-VL-72B-Instruct改进的视觉语言模型,在多个视觉推理基准测试中表现优异
文本生成图像
英语
I
GeorgyGUF
230
0
Heron NVILA Lite 33B
Apache-2.0
Heron-NVILA-Lite-33B 是一款基于 NVILA-Lite 架构、专为日语训练的视觉语言模型,支持日语和英语的多模态任务。
图像生成文本
支持多种语言
H
turing-motors
99
3
Finetune VQA 1B
Apache-2.0
基于InternVL3-1B和Vintern-1B-v3_5微调的视觉问答模型,支持越南语,适用于图像内容理解和问答任务。
文本生成图像
其他
F
TienAnh
20
0
Emova Qwen 2 5 3b
Apache-2.0
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
多模态融合
Transformers
支持多种语言
E
Emova-ollm
25
2
Internvl3 1B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,展示了卓越的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers
其他
I
OpenGVLab
1,844
2
Internvl3 78B Pretrained
其他
InternVL3-78B是OpenGVLab推出的先进多模态大语言模型,展现卓越的综合性能。
文本生成图像
Transformers
其他
I
OpenGVLab
22
1
Qwen2.5 Omni 7B GPTQ 4bit
MIT
基于Qwen2.5-Omni-7B模型的4比特GPTQ量化版本,支持多语言和多模态任务。
多模态融合
Safetensors
支持多种语言
Q
FunAGI
3,957
51
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一款基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型(MLLM),构建于 InternVL2.5 之上。
文本生成视频
Transformers
英语
I
FriendliAI
129
1
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
视频生成文本
Transformers
英语
I
OpenGVLab
8,265
60
Internlm Xcomposer2d5 Ol 7b
其他
InternLM-XComposer2.5-OL是一个支持长时流式视频与音频交互的全方位多模态系统。
文本生成图像
Safetensors
I
internlm
79
49
Mplug Owl3 7B 241101
Apache-2.0
mPLUG-Owl3是一款先进的多模态大语言模型,专注于解决长图像序列理解问题,通过超注意力机制显著提升处理速度和序列长度支持。
文本生成图像
英语
M
mPLUG
302
10
Llm Jp 3 Vila 14b
由日本国立情报学研究所开发的大型视觉语言模型,支持日语和英语,具备强大的图像理解和文本生成能力。
图像生成文本
Safetensors
日语
L
llm-jp
106
10
Pixtral 12B Captioner Relaxed
Apache-2.0
基于Pixtral-12B-2409多模态大语言模型进行指令微调的版本,能够为给定图像生成更丰富的细节描述
图像生成文本
Transformers
英语
P
Ertugrul
79
24
Docowl2
Apache-2.0
mPLUG-DocOwl2是一款无需OCR的多页文档理解多模态大语言模型,通过高分辨率文档压缩器高效编码文档内容。
图像生成文本
英语
D
mPLUG
482
99
Chartmoe
Apache-2.0
ChartMoE是基于InternLM-XComposer2的多模态大语言模型,采用专家混合连接器,具备高级图表功能。
图像生成文本
Transformers
C
IDEA-FinAI
250
12
Kangaroo
Apache-2.0
袋鼠是一个专为长视频理解设计的强大多模态大语言模型,支持中英双语对话和长视频输入。
视频生成文本
Transformers
支持多种语言
K
KangarooGroup
163
12
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MM是Salesforce AI Research开发的最新多模态大模型系列,基于BLIP的成功设计,通过基础性增强实现了更强大、更优越的模型架构。
图像生成文本
Transformers
英语
X
Salesforce
240
18
Internlm Xcomposer2 Vl 1 8b
其他
基于InternLM2的视觉-语言大模型,具备卓越的图文理解与创作能力
文本生成图像
Transformers
I
internlm
169
18
Internlm Xcomposer2 Vl 7b
其他
InternLM-XComposer2是基于InternLM2研发的视觉-语言大模型,具备卓越的图文理解与创作能力。
文本生成图像
Transformers
I
internlm
1,902
82