X-CLIP开源视频-语言理解模型 - 免费用于视频分类和文本检索

首页

Xclip Base Patch16 Hmdb 8 Shot

由 microsoft 开发

X-CLIP是CLIP的扩展版本，用于通用视频-语言理解，通过对比学习在视频和文本对上训练，适用于视频分类和视频-文本检索任务。

文本生成视频

Transformers

英语开源协议:MIT #视频-文本对比学习 #少样本视频分类 #动作识别

下载量 17

发布时间 : 9/7/2022

模型简介

X-CLIP基础尺寸模型在HMDB-51数据集上以少样本方式训练，支持视频分类和视频-文本检索任务。

模型特点

少样本学习

模型在HMDB-51数据集上以8-shot方式训练，适用于少样本场景。

视频-语言理解

通过对比学习在视频和文本对上训练，支持视频与文本的匹配任务。

高分辨率处理

训练时每段视频使用32帧，分辨率为224x224，适合高分辨率视频分析。

模型能力

视频分类

视频-文本检索

少样本学习

使用案例

视频分析

动作识别

识别视频中的特定动作，如跑步、跳跃等。

在HMDB-51数据集上达到62.8%的top-1准确率。

视频-文本匹配

视频检索

根据文本描述检索相关视频片段。

🚀 X-CLIP（基础尺寸模型）

X-CLIP是一个用于通用视频语言理解的模型，它对CLIP进行了扩展。此基础尺寸模型的补丁分辨率为16，在HMDB - 51数据集上以少样本（K = 8）的方式进行训练，可用于零样本、少样本或全监督的视频分类以及视频文本检索等任务。

🚀 快速开始

你可以使用原始模型来判断给定视频与文本的匹配程度。若想寻找针对特定任务的微调版本模型，可查看模型中心。代码示例请参考文档。

✨ 主要特性

扩展架构：X-CLIP是对CLIP的最小扩展，用于通用视频 - 语言理解。
对比训练：模型在（视频，文本）对上进行对比训练，可用于零样本、少样本或全监督的视频分类和视频 - 文本检索等任务。

📚 详细文档

模型描述

X-CLIP是对CLIP的最小扩展，用于通用视频 - 语言理解。该模型在（视频，文本）对上进行对比训练，这使得它可用于零样本、少样本或全监督的视频分类以及视频 - 文本检索等任务。

预期用途与局限性

你可以使用原始模型来判断给定视频与文本的匹配程度。若想寻找针对特定任务的微调版本模型，可查看模型中心。

训练数据

该模型在[HMDB - 51](https://serre - lab.clps.brown.edu/resource/hmdb - a - large - human - motion - database/)数据集上进行训练。

预处理

训练期间预处理的确切细节可在[此处](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L247)找到。验证期间预处理的确切细节可在[此处](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L285)找到。在验证过程中，会调整每一帧的较短边大小，然后进行中心裁剪以达到固定尺寸（如224x224）。接着，使用ImageNet的均值和标准差对帧的RGB通道进行归一化处理。

评估结果

该模型的top - 1准确率达到了62.8%。

📄 许可证

本项目采用MIT许可证。

📦 模型信息

属性	详情
模型名称	nielsr/xclip - base - patch16 - hmdb - 8 - shot
模型类型	用于视频分类的X - CLIP基础尺寸模型
训练数据	HMDB - 51
任务类型	视频分类
评估指标	top - 1准确率
指标值	62.8%
论文	Expanding Language - Image Pretrained Models for General Video Recognition
首次发布仓库	[this repository](https://github.com/microsoft/VideoX/tree/master/X - CLIP)