库名称: transformers
评估指标:
- 准确率
标签:
- 真实感
- 解剖结构异常
- 图像分类器
- 微调VIT模型
解剖结构与真实感分类器模型卡
这是一个经过微调的Vision Transformer模型,用于对AI生成图片的解剖结构异常和真实感进行分类。
该模型目前是我YouTube系列的支持模型。欢迎在此基础上进行构建。
模型详情
检测真实感AI生成图像中的解剖结构异常 - 并非所有图像生成模型都能生成解剖结构良好的图像。有些可能会生成典型的"畸形手部",比如手指数量超过5根。本模型旨在检测AI生成图像中的此类解剖问题。
区分真实照片与AI真实感 - AI生成图像在追求真实感时往往存在皮肤质感和生成风格的问题。与社交媒体上的普通照片相比,高清放大的AI生成图像可通过闪亮皮肤或过度明亮的光线等特征轻易识别。以下是几个示例:
模型描述
该模型基于google/vit-base-patch16-224-in21k Vision Transformer (ViT)进行微调。
用途
- 检测图像是真实照片还是高度逼真的AI生成图像
- 检测AI生成图像中的解剖结构异常以触发重新生成
非适用范围
偏差、风险与限制
初始模型训练数据来自Stable Diffusion v1.5使用Beautiful Realistic Asians v6检查点生成的图像。
该模型数据集仅包含134张图像,其中仅6张属于"不真实且解剖异常"类别。(数据集详情将在后续文档更新中补充)
建议
建议扩展数据集并继续训练更多样化的人物特征,以提升对不符合训练图像特征的图片识别性能。
快速开始
微调
请参考支持GitHub仓库中的初始微调脚本:https://github.com/angusleung100/barc-finetuning-gh
使用模型进行分类
请参考Hugging Face图像分类文档示例:https://huggingface.co/docs/transformers/en/tasks/image_classification#inference
训练详情
训练与测试数据
数据集图像标注标准
解剖结构正常/异常
- 人物任何身体部位变形或存在多余肢体
- 背景不过度虚化(专业后期软件可轻松修改)
真实感判定
真实感判定标准更为复杂,因现代滤镜使用普遍,很难确立统一标准。本模型采用以下标准:
- 第一眼反应 - 是否需要仔细观察产生怀疑,还是立即识别不真实
- 光线 - 业余风格图像较易分类,专业级图像可能因重度编辑而类似AI生成,但不自然光线仍是判断依据
- 皮肤与头发 - 皮肤和头发过度反光(如模型卡开头示例),或高清图像细节不足/过度
- 摄影风格 - 可能导致误判,但若焦点异常或过度磨皮,可能判定为不真实
总体基于"直觉感受"进行分类。模型目标正是复现这种对图像的直觉判断。
数据集兼容图像
由于使用默认数据整理器且图像主要来自SD1.5,不确定不同模型的图像尺寸是否会影响训练(尽管测试流程对后续3张图像无异常)。
确认兼容的模型:
- Stable Diffusion 1.5
- OpenDalle v1.1
- Flux 1
- Copilot的Dall-E 3
数据集统计
各标签图像数量
=======================
真实但解剖异常: 6 (4.48%)
真实且解剖正常: 15 (11.19%)
不真实且解剖异常: 81 (60.45%)
不真实但解剖正常: 32 (23.88%)
总图像数: 134
评估
结果
***** 训练指标 *****
训练轮次 = 3.0
总浮点运算量 = 20135801GF
训练损失 = 0.8453
训练耗时 = 0:00:42.83
每秒训练样本数 = 6.514
每秒训练步数 = 0.841
***** 评估指标 *****
评估轮次 = 3.0
评估准确率 = 0.6341
评估F1值 = 0.513
评估损失 = 0.8219
评估精确率 = 0.464
评估召回率 = 0.6341
评估耗时 = 0:00:06.95
每秒评估样本数 = 5.893
每秒评估步数 = 0.862
总结
初始数据集和微调获得64.41%准确率和51.3% F1值,对于小型业余数据集属预期范围。
未来计划通过以下方式提升模型性能:
- 增加人物姿态多样性
- 丰富服装风格和光线条件
- 多样化摄影风格
- 扩展不同模型的生成图像(当前主要基于SD1.5 BRAV6和BRAV7检查点)
模型检验
可在初始微调笔记本查看推理示例。
使用ctrl+f
搜索Test Model With Custom Inputs
可快速定位示例。
联系方式
如有疑问可通过以下方式联系: