I

Internvideo2 Chat 8B

由 OpenGVLab 开发
InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够进行视频语义理解和人机交互。
下载量 492
发布时间 : 8/1/2024
模型介绍
内容详情
替代品

模型简介

该模型通过将InternVideo2作为视频编码器,并与Mistral-7B等大型语言模型结合,构建了VideoLLM进行微调,提升了视频语义内涵和人机交互友好性。

模型特点

渐进式学习方案
采用VideoChat的渐进式学习方案,训练视频BLIP模块与开源LLM进行交互,视频编码器会持续更新。
高性能视频理解
在MVBench和VideoMME等基准测试中表现出色,能够准确理解视频内容并进行语义分析。
多模态交互
结合视频和文本输入,支持复杂的多模态交互任务,如视频内容描述和问答。

模型能力

视频内容理解
视频问答
视频内容描述
多模态交互

使用案例

视频分析
视频内容描述
对视频内容进行详细描述,如动作细节、场景信息等。
视频展示了一位女士在可俯瞰山景的屋顶练习瑜伽。她首先以手膝支撑姿势开始,随后过渡到下犬式,最终以站立姿势结束。
视频问答
回答关于视频内容的特定问题,如人物服装、动作细节等。
视频中的女士穿着黑色背心和灰色瑜伽裤。
人机交互
自然语言交互
支持通过自然语言与模型进行交互,获取视频内容的详细信息。