I

Internvl 2 5 HiCo R64

由 OpenGVLab 开发
基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型,通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM
下载量 252
发布时间 : 1/23/2025

模型简介

InternVideo2.5是一款视频多模态大语言模型,通过直接偏好优化(TPO)和自适应分层令牌压缩(HiCo)技术增强感知能力和时空表示。

模型特点

长且丰富的上下文建模
通过LRC建模增强对视频内容的理解能力
自适应分层令牌压缩
使用HiCo技术实现紧凑的时空表示,每帧64个令牌
直接偏好优化
通过TPO进行密集视觉任务标注,提升模型性能

模型能力

视频内容理解
多模态推理
长视频分析
视频描述生成

使用案例

视频理解
视频内容描述
对视频内容进行详细描述
可生成准确描述视频内容的文本
视频问答
回答关于视频内容的问题
可准确回答视频相关问题
长视频分析
长视频内容总结
对长视频内容进行总结
可有效捕捉长视频中的关键信息
AIbase
智启未来,您的人工智能解决方案智库
简体中文