I

Internvl 2 5 HiCo R16

由 FriendliAI 开发
InternVideo2.5 是一款基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型(MLLM),构建于 InternVL2.5 之上。
下载量 129
发布时间 : 3/18/2025
模型介绍
内容详情
替代品

模型简介

InternVideo2.5 通过提升感知细粒度细节和捕捉长时态结构的能力,显著改进了现有的 MLLM。通过使用直接偏好优化(TPO)进行密集视觉任务标注,以及通过自适应分层令牌压缩(HiCo)实现紧凑的时空表示来实现这一点。

模型特点

长且丰富的上下文(LRC)建模
通过提升感知细粒度细节和捕捉长时态结构的能力,显著改进现有的 MLLM。
自适应分层令牌压缩(HiCo)
实现紧凑的时空表示,每帧仅使用 16 个令牌。
直接偏好优化(TPO)
通过密集视觉任务标注增强模型性能。

模型能力

视频理解
视频描述生成
多模态对话
长视频分析

使用案例

视频内容分析
视频详细描述
对视频内容进行详细描述,包括场景、动作和对象。
生成详细的视频描述文本
视频问答
回答关于视频内容的特定问题。
准确回答视频相关问题
长视频处理
长视频摘要
对长视频内容进行摘要和关键帧提取。
生成视频摘要和关键帧描述