V

Vit Base Patch16 224 Futurama Image Multilabel Clf

由 DunnBC22 开发
基于Google Vision Transformer微调的多标签图像分类模型,专门用于识别动画剧集《飞出个未来》截图中的内容。
下载量 19
发布时间 : 2/16/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于google/vit-base-patch16-224微调后的版本,用于对《飞出个未来》动画截图进行多标签分类。在评估集上表现出色,F1值达到0.9818。

模型特点

高精度多标签分类
在《飞出个未来》截图数据集上实现了0.9818的F1值和0.9672的准确率。
基于ViT架构
采用Vision Transformer基础架构,具有强大的图像特征提取能力。
精细调优
经过8轮精细调优,训练损失从0.2456降至0.0005。

模型能力

图像分类
多标签识别
动画场景分析

使用案例

媒体内容分析
动画场景分类
自动识别《飞出个未来》动画中的场景内容
准确率达到96.72%
内容审核
识别动画中的特定内容或角色