T

Timesformer Hr Finetuned Ssv2

由 facebook 开发
TimeSformer是基于空间-时间注意力机制的视频理解模型,该版本是在Something Something v2数据集上微调的高分辨率变体。
下载量 550
发布时间 : 10/7/2022
模型介绍
内容详情
替代品

模型简介

该模型用于视频分类任务,可将视频分类为174种可能的Something Something v2标签之一。

模型特点

空间-时间注意力机制
采用纯注意力机制处理视频的时空信息,无需卷积操作
高分辨率处理能力
该变体支持更高分辨率的视频输入(448x448)
视频理解能力
专门针对视频分类任务优化,能够理解视频中的时空关系

模型能力

视频分类
时空特征提取
高分辨率视频处理

使用案例

视频理解
动作识别
识别视频中的人类动作和行为
在Something Something v2数据集上表现良好
视频内容分析
分析视频内容并自动分类