多模态大语言模型

# 多模态大语言模型

SAIL是一个专为视觉与语言设计的单一Transformer模型，作为统一的多模态大语言模型（MLLM），它在单一架构中无缝集成了原始像素编码和语言解码功能。

图像生成文本

Internvl3 8B Hf

InternVL3 是一个先进的多模态大语言模型系列，具备强大的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Internvl3 2B AWQ

InternVL3-2B是OpenGVLab推出的先进多模态大语言模型（MLLM），具备卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等。

图像文本到文本

Transformers 其他

InternVL3-1B是InternVL3系列中的1B参数规模多模态大语言模型，整合了InternViT视觉编码器和Qwen2.5语言模型，具备卓越的多模态感知和推理能力。

图像文本到文本

Transformers 其他

Ovis2-1B是多模态大语言模型（MLLM）Ovis系列的最新成员，专注于视觉与文本嵌入的结构对齐，具有小模型高性能、强化推理能力、视频与多图处理以及多语言OCR增强等特性。

文本生成图像

Transformers 支持多种语言

Video-R1-7B是基于Qwen2.5-VL-7B-Instruct优化的多模态大语言模型，专注于视频推理任务，能够理解视频内容并回答相关问题。

视频生成文本

Transformers 英语

Finedefics 是一个开源的多模态大语言模型（MLLM），通过融入对象的信息化属性描述，增强了细粒度视觉识别（FGVR）能力。

图像生成文本

MiniMax-VL-01是一个强大的多模态大语言模型，采用'ViT-MLP-LLM'框架，具有动态分辨率处理能力，在多项视觉语言任务中表现优异。

图像生成文本

Videorefer 7B Stage2.5

VideoRefer-7B是一个基于视频大语言模型的多模态模型，专注于时空物体理解任务。

文本生成视频

Transformers 英语

P MoD LLaVA NeXT 7B

p-MoD是一个基于渐进比例衰减方法构建的混合深度多模态大语言模型，支持图像文本生成文本任务。

图像生成文本

Llava UHD V2 Vicuna 7B

LLaVA-UHD v2 是一款先进的多模态大语言模型，围绕分层窗口变换器构建，能够通过高分辨率特征金字塔捕捉不同视觉粒度。

多模态融合

Auroracap 7B VID Xtuner

AuroraCap是一个用于图像和视频字幕的多模态大语言模型，专注于高效和详细的视频字幕生成。

视频生成文本

Eagle 是一系列以视觉为中心的高分辨率多模态大语言模型，支持高达1K以上的输入分辨率，在光学字符识别和文档理解等任务上表现出色。

图像生成文本

M3D LaMed Llama 2 7B

M3D是基于多模态大语言模型的3D医学影像分析技术，包含M3D-Data数据集、M3D-LaMed模型和M3D-Bench评估基准。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24