ShareCaptioner-Video开源视频描述生成器 - 免费为不同规格视频生成描述

Sharecaptioner Video

由 Lin-Chen 开发

基于GPT4V标注数据微调的开源视频描述生成器，支持不同时长、宽高比和分辨率的视频

下载量 264

发布时间 : 6/6/2024

模型简介

ShareCaptioner-Video是一个开源视频描述生成器，基于GPT4V辅助标注的ShareGPT4Video详细描述数据集微调而成，支持快速描述生成、滑动窗口描述、片段摘要和提示词重述四大功能。

快速描述生成

采用图像网格格式直接生成视频描述，为短视频提供极速生成体验

滑动窗口描述

支持差分滑动窗口格式的流式描述生成，可为长视频输出高质量描述

片段摘要

能快速总结视频或已完成滑动窗口描述的视频片段，无需重复处理帧数据

提示词重述

可根据用户偏好的视频生成领域重写输入提示，确保文本到视频模型在推理时保持格式一致性

视频描述生成

长视频流式描述

视频片段摘要

提示词优化

视频内容理解

短视频描述生成

为短视频快速生成详细描述

提高短视频内容理解效率

长视频内容分析

通过滑动窗口技术分析长视频内容

实现对长视频的精细化理解

视频生成辅助

提示词优化

为文本到视频模型优化输入提示

提高生成视频与文本描述的一致性

ShareCaptioner-Video是一个开源的视频字幕生成模型，它基于GPT4V辅助的详细字幕数据进行微调，支持不同时长、宽高比和分辨率的视频。该模型能为视频生成高质量字幕，在计算机视觉、自然语言处理等领域有重要应用价值。

暂未提供相关快速开始的内容。

ShareCaptioner-Video是一个基于InternLM-Xcomposer2-4KHD模型的开源字幕生成器，它在GPT4V辅助的ShareGPT4Video详细字幕数据上进行了微调，支持各种时长、宽高比和分辨率的视频。

快速字幕生成：该模型采用图像网格格式直接为视频生成字幕，生成速度快，适用于短视频。在实践中，我们将视频的所有关键帧拼接成一个垂直拉长的图像，并在字幕任务上训练模型。
滑动字幕生成：模型支持以差分滑动窗口格式进行流式字幕生成，生成的字幕质量高，适用于长视频。我们将两个相邻的关键帧和之前的差分字幕作为输入，训练模型描述它们之间发生的事件。
片段总结：模型可以快速总结来自ShareGPT4Video的任何片段或经过差分滑动窗口字幕处理的视频，无需重新处理帧。我们将所有差分描述作为输入，输出即为视频字幕。
提示重写字幕：模型可以根据用户输入的特定视频生成区域的提示进行重写，确保在高质量视频 - 字幕数据上训练的T2VM模型在推理时与训练时保持格式一致。在实践中，我们使用GPT - 4为密集字幕生成Sora风格的提示，并反向训练重写字幕任务，即以生成的提示为输入，密集字幕为训练目标。