许可证:apache-2.0
标签:
- 训练生成
数据集:
- 图像文件夹
评估指标:
- 准确率
- F1值
- 召回率
- 精确率
模型索引:
- 名称:vit-base-patch16-224-in21k_人类活动识别
结果:
- 任务:
名称:图像分类
类型:image-classification
数据集:
名称:imagefolder
类型:imagefolder
配置:默认
拆分:训练集
参数:默认
指标:
- 名称:准确率
类型:accuracy
值:0.8380952380952381
语言:
- en
vit-base-patch16-224-in21k_人类活动识别
该模型是基于google/vit-base-patch16-224-in21k微调的版本。
在评估集上达到以下结果:
- 损失:0.7403
- 准确率:0.8381
- F1值
- 加权:0.8388
- 微平均:0.8381
- 宏平均:0.8394
- 召回率
- 加权:0.8381
- 微平均:0.8381
- 宏平均:0.8390
- 精确率
- 加权:0.8421
- 微平均:0.8381
- 宏平均:0.8424
模型描述
这是一个用于分类人类不同活动的多类别图像分类模型。
关于其创建过程的更多信息,请查看以下链接:
https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Computer%20Vision/Image%20Classification/Multiclass%20Classification/Human%20Activity%20Recognition/ViT-Human%20Action_Recogniton.ipynb
预期用途与限制
该模型旨在展示我运用技术解决复杂问题的能力。欢迎测试和实验此模型,但风险自负。
训练与评估数据
数据集来源:https://www.kaggle.com/datasets/meetnagadia/human-action-recognition-har-dataset
数据集示例图像:

训练流程
训练超参数
训练中使用的超参数如下:
- 学习率:0.0002
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 训练轮次:5
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
准确率 |
加权F1 |
微平均F1 |
宏平均F1 |
加权召回率 |
微平均召回率 |
宏平均召回率 |
加权精确率 |
微平均精确率 |
宏平均精确率 |
1.0814 |
1.0 |
630 |
0.7368 |
0.7794 |
0.7795 |
0.7794 |
0.7798 |
0.7794 |
0.7794 |
0.7797 |
0.7896 |
0.7794 |
0.7896 |
0.5149 |
2.0 |
1260 |
0.6439 |
0.8060 |
0.8049 |
0.8060 |
0.8036 |
0.8060 |
0.8060 |
0.8051 |
0.8136 |
0.8060 |
0.8130 |
0.3023 |
3.0 |
1890 |
0.7026 |
0.8254 |
0.8272 |
0.8254 |
0.8278 |
0.8254 |
0.8254 |
0.8256 |
0.8335 |
0.8254 |
0.8345 |
0.0507 |
4.0 |
2520 |
0.7414 |
0.8317 |
0.8342 |
0.8317 |
0.8348 |
0.8317 |
0.8317 |
0.8321 |
0.8427 |
0.8317 |
0.8438 |
0.0128 |
5.0 |
3150 |
0.7403 |
0.8381 |
0.8388 |
0.8381 |
0.8394 |
0.8381 |
0.8381 |
0.8390 |
0.8421 |
0.8381 |
0.8424 |
框架版本
- Transformers 4.25.1
- PyTorch 1.12.1
- Datasets 2.8.0
- Tokenizers 0.12.1