多模态大语言模型
SAIL 7B
Apache-2.0
SAIL是一个专为视觉与语言设计的单一Transformer模型,作为统一的多模态大语言模型(MLLM),它在单一架构中无缝集成了原始像素编码和语言解码功能。
图像生成文本
Transformers
S
ByteDance-Seed
119
11
Internvl3 8B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers
其他
I
OpenGVLab
454
1
Internvl3 2B AWQ
其他
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型(MLLM),具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等。
图像文本到文本
Transformers
其他
I
OpenGVLab
677
1
Internvl3 1B
其他
InternVL3-1B是InternVL3系列中的1B参数规模多模态大语言模型,整合了InternViT视觉编码器和Qwen2.5语言模型,具备卓越的多模态感知和推理能力。
图像文本到文本
Transformers
其他
I
FriendliAI
71
1
Ovis2 1B Dev
Apache-2.0
Ovis2-1B是多模态大语言模型(MLLM)Ovis系列的最新成员,专注于视觉与文本嵌入的结构对齐,具有小模型高性能、强化推理能力、视频与多图处理以及多语言OCR增强等特性。
文本生成图像
Transformers
支持多种语言
O
Isotr0py
79
1
Video R1 7B
Apache-2.0
Video-R1-7B是基于Qwen2.5-VL-7B-Instruct优化的多模态大语言模型,专注于视频推理任务,能够理解视频内容并回答相关问题。
视频生成文本
Transformers
英语
V
Video-R1
2,129
9
Finedefics
Finedefics 是一个开源的多模态大语言模型(MLLM),通过融入对象的信息化属性描述,增强了细粒度视觉识别(FGVR)能力。
图像生成文本
F
StevenHH2000
82
6
Minimax VL 01
MiniMax-VL-01是一个强大的多模态大语言模型,采用'ViT-MLP-LLM'框架,具有动态分辨率处理能力,在多项视觉语言任务中表现优异。
图像生成文本
M
MiniMaxAI
237
253
Videorefer 7B Stage2.5
Apache-2.0
VideoRefer-7B是一个基于视频大语言模型的多模态模型,专注于时空物体理解任务。
文本生成视频
Transformers
英语
V
DAMO-NLP-SG
20
2
P MoD LLaVA NeXT 7B
Apache-2.0
p-MoD是一个基于渐进比例衰减方法构建的混合深度多模态大语言模型,支持图像文本生成文本任务。
图像生成文本
Safetensors
P
MCG-NJU
74
4
Auroracap 7B VID Xtuner
Apache-2.0
AuroraCap是一个用于图像和视频字幕的多模态大语言模型,专注于高效和详细的视频字幕生成。
视频生成文本
A
wchai
31
5
Eagle X5 7B
Eagle 是一系列以视觉为中心的高分辨率多模态大语言模型,支持高达1K以上的输入分辨率,在光学字符识别和文档理解等任务上表现出色。
图像生成文本
Transformers
E
NVEagle
918
26
M3D LaMed Llama 2 7B
Apache-2.0
M3D是基于多模态大语言模型的3D医学影像分析技术,包含M3D-Data数据集、M3D-LaMed模型和M3D-Bench评估基准。
图像生成文本
Transformers
M
GoodBaiBai88
209
2