vit-base-patch16-224-Futurama_Image_multilabel_clf开源模型 - 精准识别《飞出个未来》截图内容

首页

Vit Base Patch16 224 Futurama Image Multilabel Clf

由 DunnBC22 开发

基于Google Vision Transformer微调的多标签图像分类模型，专门用于识别动画剧集《飞出个未来》截图中的内容。

图像分类

Transformers

英语开源协议:Apache-2.0 #动画截图分类 #多标签识别 #高精度ViT

下载量 19

发布时间 : 2/16/2023

模型简介

该模型是基于google/vit-base-patch16-224微调后的版本，用于对《飞出个未来》动画截图进行多标签分类。在评估集上表现出色，F1值达到0.9818。

模型特点

高精度多标签分类

在《飞出个未来》截图数据集上实现了0.9818的F1值和0.9672的准确率。

基于ViT架构

采用Vision Transformer基础架构，具有强大的图像特征提取能力。

精细调优

经过8轮精细调优，训练损失从0.2456降至0.0005。

模型能力

图像分类

多标签识别

动画场景分析

使用案例

媒体内容分析

动画场景分类

自动识别《飞出个未来》动画中的场景内容

准确率达到96.72%

内容审核

识别动画中的特定内容或角色

🚀 vit-base-patch16-224-Futurama_Image_multilabel_clf

这是一个基于图像分类的多标签分类模型，对电视剧《飞出个未来》的截图进行分类，在评估集上取得了优异的成绩，展示了使用技术解决复杂问题的能力。

🚀 快速开始

本模型是 google/vit-base-patch16-224 的微调版本。它在评估集上取得了以下结果：

损失值：0.0592
F1值：0.9818
ROC AUC值：0.9842
准确率：0.9672

📚 详细文档

模型描述

这是一个针对电视剧《飞出个未来》截图的多标签分类模型。

有关其创建方式的更多信息，请查看以下链接：https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Computer%20Vision/Image%20Classification/Multilabel%20Classification/Futurama%20Screenshots/Futurama%20-%20ML%20Image%20CLF.ipynb

预期用途与限制

本模型旨在展示使用技术解决复杂问题的能力。

训练和评估数据

数据集来源：https://www.kaggle.com/datasets/gonzalorecioc/futurama-frames-with-characteronscreen-data

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：2e-05
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
训练轮数：8

训练结果

训练损失	轮数	步数	验证损失	F1值	ROC AUC值	准确率
0.2456	1.0	916	0.0723	0.9711	0.9746	0.9481
0.0269	2.0	1832	0.0545	0.9799	0.9818	0.9640
0.0086	3.0	2748	0.0580	0.9794	0.9814	0.9623
0.0044	4.0	3664	0.0612	0.9814	0.9832	0.9651
0.0027	5.0	4580	0.0592	0.9818	0.9842	0.9672
0.0017	6.0	5496	0.0634	0.9800	0.9832	0.9645
0.0012	7.0	6412	0.0657	0.9817	0.9840	0.9667
0.0005	8.0	7328	0.0668	0.9812	0.9836	0.9667

框架版本

Transformers 4.26.1
Pytorch 1.12.1
Datasets 2.8.0
Tokenizers 0.12.1

📄 许可证

本模型采用 Apache-2.0 许可证。

属性	详情
模型类型	图像分类多标签分类模型
训练数据	来自 https://www.kaggle.com/datasets/gonzalorecioc/futurama-frames-with-characteronscreen-data 的数据集