vit-base-patch16-224-in21k_Human_Activity_Recognition开源模型

首页

Vit Base Patch16 224 In21k Human Activity Recognition

由 DunnBC22 开发

基于Google Vision Transformer (ViT)微调的人类活动识别模型，用于图像分类任务

图像分类

Transformers

英语开源协议:Apache-2.0 #人类活动识别 #ViT微调模型 #多类别图像分类

下载量 92

发布时间 : 1/24/2023

模型简介

该模型是基于Google的ViT模型微调而成，专门用于识别图像中的人类不同活动。在评估集上达到了83.81%的准确率。

模型特点

高准确率

在人类活动识别任务上达到83.81%的准确率

基于ViT架构

使用Google Vision Transformer基础模型进行微调

多指标评估

提供准确率、F1值、召回率和精确率等多种评估指标

模型能力

图像分类

人类活动识别

多类别分类

使用案例

监控与安防

监控视频分析

识别监控视频中的人类活动

可准确识别多种人类活动

健康与运动

运动动作识别

识别健身或运动中的动作

🚀 基于ViT的人类活动识别模型

本模型是基于预训练模型开发的图像分类模型，用于识别不同的人类活动。它在微调后，在评估集上取得了良好的性能，可用于相关领域的研究和应用。

🚀 快速开始

本模型是 google/vit-base-patch16-224-in21k 的微调版本。

它在评估集上取得了以下结果：

损失值：0.7403
准确率：0.8381
F1值
- 加权：0.8388
- 微平均：0.8381
- 宏平均：0.8394
召回率
- 加权：0.8381
- 微平均：0.8381
- 宏平均：0.8390
精确率
- 加权：0.8421
- 微平均：0.8381
- 宏平均：0.8424

✨ 主要特性

这是一个多分类图像分类模型，用于识别人类进行不同活动的图像。

有关该模型的创建方式的更多信息，请查看以下链接：https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Computer%20Vision/Image%20Classification/Multiclass%20Classification/Human%20Activity%20Recognition/ViT-Human%20Action_Recogniton.ipynb

📚 详细文档

预期用途和限制

本模型旨在展示使用技术解决复杂问题的能力。欢迎您对本模型进行测试和实验，但需自行承担风险。

训练和评估数据

数据集来源：https://www.kaggle.com/datasets/meetnagadia/human-action-recognition-har-dataset

数据集中的示例图像：

示例图像

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0002
训练批次大小：16
评估批次大小：8
随机种子：42
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
训练轮数：5

训练结果

训练损失	轮数	步数	验证损失	准确率	加权F1值	微平均F1值	宏平均F1值	加权召回率	微平均召回率	宏平均召回率	加权精确率	微平均精确率	宏平均精确率
1.0814	1.0	630	0.7368	0.7794	0.7795	0.7794	0.7798	0.7794	0.7794	0.7797	0.7896	0.7794	0.7896
0.5149	2.0	1260	0.6439	0.8060	0.8049	0.8060	0.8036	0.8060	0.8060	0.8051	0.8136	0.8060	0.8130
0.3023	3.0	1890	0.7026	0.8254	0.8272	0.8254	0.8278	0.8254	0.8254	0.8256	0.8335	0.8254	0.8345
0.0507	4.0	2520	0.7414	0.8317	0.8342	0.8317	0.8348	0.8317	0.8317	0.8321	0.8427	0.8317	0.8438
0.0128	5.0	3150	0.7403	0.8381	0.8388	0.8381	0.8394	0.8381	0.8381	0.8390	0.8421	0.8381	0.8424