I

Internvl3 78B Pretrained

由 OpenGVLab 开发
InternVL3-78B是OpenGVLab推出的先进多模态大语言模型,展现卓越的综合性能。相比前代InternVL 2.5,具备更强大的多模态感知与推理能力,并将能力拓展至工具使用、GUI代理、工业图像分析、3D视觉感知等新领域。
下载量 22
发布时间 : 4/17/2025
模型介绍
内容详情
替代品

模型简介

InternVL3-78B是已完成原生多模态预训练但未进行后训练的版本,采用'ViT-MLP-LLM'架构,支持多图像和视频数据,具备长上下文理解能力。

模型特点

原生多模态预训练
统一训练语言与视觉学习,增强多模态任务处理能力
可变视觉位置编码(V2PE)
采用更小更灵活的位置增量,提升长上下文理解能力
多模态能力扩展
支持工具使用、GUI代理、工业图像分析、3D视觉感知等新领域
动态分辨率处理
将图像划分为448×448像素图块,支持多图像和视频数据

模型能力

多模态推理
图像描述生成
视觉问答
文档理解
视频理解
GUI操作理解
3D场景理解
多语言支持

使用案例

智能客服
多模态客服助手
通过图像和文本交互解决用户问题
提升客服效率和用户体验
内容生成
图文内容创作
根据图像生成描述性或创意性文本
自动化内容生产流程
工业检测
缺陷分析
分析工业图像并描述缺陷情况
提高质检效率和准确性