I

Internvl3 1B Pretrained

由 OpenGVLab 开发
InternVL3-1B是OpenGVLab推出的先进多模态大语言模型,已完成原生多模态预训练但未进行后训练。
下载量 18
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-1B是基于InternViT和Qwen2.5架构的多模态大语言模型,支持图像和文本的联合理解与生成任务。

模型特点

原生多模态预训练
采用统一训练方案同步学习语言与多模态表征,增强视觉语言任务处理能力
可变视觉位置编码(V2PE)
通过灵活的位置增量处理视觉token,提升长上下文理解能力
动态分辨率处理
支持448×448像素图块分割,适应不同尺寸输入

模型能力

图像理解
文本生成
多模态推理
多语言支持
多图像处理
视频理解

使用案例

视觉问答
图像描述生成
根据输入图像生成详细描述
多模态对话
基于图像的对话系统
支持多轮基于图像的对话交互