I

Internvl3 1B

由 FriendliAI 开发
InternVL3-1B是InternVL3系列中的1B参数规模多模态大语言模型,整合了InternViT视觉编码器和Qwen2.5语言模型,具备卓越的多模态感知和推理能力。
下载量 71
发布时间 : 4/12/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-1B是一个先进的多模态大语言模型,结合了视觉和语言处理能力,支持图像、视频、文本等多种模态的输入,适用于复杂的多模态理解和生成任务。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,增强多模态任务处理能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量处理视觉标记,提升长上下文理解能力。
混合偏好优化(MPO)
通过正负样本监督对齐模型响应分布,提高推理性能。
动态分辨率策略
将图像划分为448×448像素的块,支持多图像和视频数据。

模型能力

多模态推理
图像理解
视频理解
文本生成
OCR
图表理解
文档理解
GUI定位
空间推理

使用案例

工业图像分析
工业缺陷检测
通过图像分析识别工业产品中的缺陷。
高精度识别缺陷,提升生产效率。
3D视觉感知
3D场景理解
分析3D场景中的物体和空间关系。
准确理解复杂3D场景。
工具使用
自动化工具操作
通过自然语言指令操作工具。
提升工具使用的便捷性和效率。