T

Timesformer Hr Finetuned K600

由 fcakyon 开发
TimeSformer是一种基于时空注意力机制的视频理解模型,高分辨率变体专门针对Kinetics-600数据集进行了微调。
下载量 22
发布时间 : 12/10/2022
模型介绍
内容详情
替代品

模型简介

该模型主要用于视频分类任务,支持Kinetics-600数据集的600种类别分类。采用纯注意力机制处理视频时空信息,无需卷积操作。

模型特点

纯注意力机制
完全基于Transformer架构处理视频数据,无需传统卷积操作
高分辨率支持
专门优化的高分辨率变体,能处理更精细的视频内容
时空建模
同时捕捉视频中的空间和时间维度信息

模型能力

视频内容分类
时空特征提取
动作识别

使用案例

视频分析
动作识别
识别视频中的人类动作和行为
可识别Kinetics-600数据集中的600种动作类别
视频内容分类
对视频内容进行自动分类和标记