X-CLIP开源模型 - 通用视频语言理解，以对比训练助力视频文本处理

首页

Xclip Base Patch16 Ucf 4 Shot

由 microsoft 开发

X-CLIP是CLIP的最小扩展，用于通用视频语言理解，通过（视频，文本）对的对比方式进行训练。

视频处理

Transformers

英语开源协议:MIT #视频-文本对比学习 #少样本视频分类 #多模态理解

下载量 16

发布时间 : 9/7/2022

模型简介

X-CLIP模型（基础规模，16x16的补丁分辨率）以少样本方式（K=4）在UCF101上训练，可用于零样本、少样本或全监督的视频分类及视频-文本检索任务。

模型特点

少样本学习

模型在UCF101数据集上以少样本方式（K=4）训练，适用于数据稀缺的场景。

视频-文本对比学习

通过（视频，文本）对的对比方式进行训练，支持视频与文本的匹配任务。

通用视频识别

模型可用于零样本、少样本或全监督的视频分类及视频-文本检索任务。

模型能力

视频分类

视频-文本检索

零样本学习

少样本学习

使用案例

视频理解

视频分类

对视频内容进行分类，适用于UCF101数据集中的101个动作类别。

前1准确率达到83.4%

视频-文本检索

根据文本描述检索相关视频，或根据视频内容生成匹配的文本描述。

🚀 X-CLIP（基础尺寸模型）

X-CLIP是一个用于通用视频语言理解的模型，它在视频分类和视频文本检索等任务中表现出色。该模型基于CLIP扩展而来，以对比学习的方式在（视频，文本）对上进行训练，能够处理零样本、少样本或全监督的视频分类任务。

🚀 快速开始

X-CLIP模型（基础尺寸，补丁分辨率为16）在UCF101数据集上以少样本（K = 4）的方式进行训练。它由Ni等人在论文Expanding Language-Image Pretrained Models for General Video Recognition中提出，并首次在此仓库发布。

该模型在训练时每个视频使用32帧，分辨率为224x224。

免责声明：发布X-CLIP的团队未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

通用视频语言理解：X-CLIP是CLIP的扩展，能够处理视频和文本之间的关联，适用于多种视频相关任务。
对比学习训练：通过对比学习在（视频，文本）对上进行训练，使模型能够学习到视频和文本之间的语义关系。
多任务适用性：可用于零样本、少样本或全监督的视频分类以及视频文本检索等任务。

X-CLIP架构

📚 详细文档

预期用途和限制

你可以使用原始模型来判断给定视频与文本的匹配程度。你可以在模型中心查找针对你感兴趣的任务进行微调的版本。

使用方法

有关代码示例，请参考文档。

训练数据

该模型在UCF101数据集上进行训练。

预处理

训练期间预处理的确切细节可在此处找到。验证期间预处理的确切细节可在此处找到。在验证期间，会调整每一帧的短边大小，然后进行中心裁剪以获得固定大小的分辨率（如224x224）。接下来，使用ImageNet的均值和标准差在RGB通道上对帧进行归一化处理。

评估结果

该模型在UCF101数据集上的top-1准确率达到了83.4%。

📄 许可证

本项目采用MIT许可证。

属性	详情
模型类型	X-CLIP（基础尺寸模型）
训练数据	UCF101

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文