V

Videochat TPO

由 OpenGVLab 开发
基于论文《任务偏好优化:通过视觉任务对齐改进多模态大语言模型》研发的多模态大语言模型
下载量 18
发布时间 : 12/18/2024
模型介绍
内容详情
替代品

模型简介

VideoChat2-TPO是一个多模态大语言模型,专注于视频与文本的交互任务,通过任务偏好优化技术提升视觉任务对齐能力。

模型特点

任务偏好优化
通过视觉任务对齐技术改进多模态大语言模型的性能
多模态交互
支持视频与文本的双向理解和生成
基于Mistral架构
基于强大的Mistral-7B-Instruct模型进行优化

模型能力

视频内容理解
视频文本生成
多模态对话
视觉任务对齐

使用案例

视频内容分析
视频摘要生成
根据视频内容自动生成文字摘要
视频问答系统
回答关于视频内容的自然语言问题
多模态交互
视频对话系统
基于视频内容进行自然语言对话