I

Internvideo2 5 Chat 8B

由 OpenGVLab 开发
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
下载量 8,265
发布时间 : 1/22/2025
模型介绍
内容详情
替代品

模型简介

InternVideo2.5是一款视频多模态大语言模型,通过直接偏好优化(TPO)进行密集视觉任务标注,以及通过自适应分层令牌压缩(HiCo)实现紧凑的时空表示,显著提升了感知细粒度细节和捕捉长时序结构的能力。

模型特点

长且丰富上下文(LRC)建模
通过增强感知细粒度细节和捕捉长时序结构的能力,显著改进现有MLLM模型
直接偏好优化(TPO)
通过密集视觉任务标注提升模型性能
自适应分层令牌压缩(HiCo)
实现紧凑的时空表示,提高处理效率

模型能力

视频内容理解
视频文本生成
多模态推理
长视频处理

使用案例

视频内容分析
视频内容描述
对视频内容进行详细描述
生成准确、详细的视频描述文本
视频问答
回答关于视频内容的问题
准确回答关于视频中人物、动作、场景等问题
长视频处理
长视频摘要
对长视频内容进行摘要
生成简洁的长视频内容摘要