A

Athit Timesformer 32PS

由 mbushee 开发
TimeSformer是基于空间-时间注意力机制的视频理解模型,在Kinetics-400数据集上进行了微调,可用于视频分类任务。
下载量 17
发布时间 : 2/23/2024
模型介绍
内容详情
替代品

模型简介

该模型主要用于将视频分类为400种可能的Kinetics-400标签之一,采用了纯注意力机制处理视频的时空信息。

模型特点

纯注意力机制
完全基于注意力机制处理视频的时空信息,无需卷积操作
高效视频理解
能够有效捕捉视频中的时空特征,实现准确的视频分类
预训练模型
已在大型视频数据集Kinetics-400上进行预训练和微调

模型能力

视频分类
时空特征提取
视频内容理解

使用案例

视频分析
动作识别
识别视频中的人类动作和行为
可分类400种不同的动作类别
视频内容分类
对视频内容进行自动分类和标记