I

Internvl 2 5 HiCo R16

由 OpenGVLab 开发
InternVideo2.5 是一个基于 InternVL2.5 构建的视频多模态大语言模型(MLLM),通过长且丰富的上下文(LRC)建模进行了增强,能够感知细粒度细节并捕捉长时态结构。
下载量 1,914
发布时间 : 1/23/2025
模型介绍
内容详情
替代品

模型简介

InternVideo2.5 是一个视频多模态大语言模型,通过直接偏好优化(TPO)进行密集视觉任务标注,以及通过自适应分层令牌压缩(HiCo)实现紧凑的时空表示,显著提升了现有 MLLM 的能力。

模型特点

长且丰富的上下文(LRC)建模
通过 LRC 建模增强,能够感知细粒度细节并捕捉长时态结构。
自适应分层令牌压缩(HiCo)
实现紧凑的时空表示,提升模型效率。
直接偏好优化(TPO)
通过密集视觉任务标注优化模型性能。

模型能力

视频理解
多模态推理
长视频分析
细粒度细节感知

使用案例

视频分析
视频内容描述
详细描述视频内容,包括场景、人物和动作。
高准确率的视频内容理解
长视频结构分析
捕捉长视频中的时态结构和关键事件。
59.6 的准确率(LongVideoBench)
多模态任务
多模态推理
结合视频和文本信息进行复杂推理。
74.0 的准确率(MVBench)