Virtus开源二分类模型 - 高效检测深度伪造图像，准确率高达99.2%

首页

Virtus

由 agasta 开发

基于视觉变换器的二分类模型，专用于检测深度伪造图像，准确率达99.2%

图像分类

Transformers

开源协议:MIT #深度伪造检测 #高精度分类 #视觉变换器

下载量 970

发布时间 : 4/14/2025

模型简介

Virtus是一个经过微调的视觉变换器模型，专门用于区分真实图像与深度伪造图像。该模型在包含19万张图像的平衡数据集上训练，具有极高的检测准确率。

模型特点

高准确率

在测试集上达到99.2%的准确率，能有效识别深度伪造图像

平衡数据集

使用包含19万张图像的平衡数据集训练，确保模型公平性

数据增强

采用随机旋转、锐度调整等多种数据增强技术提升泛化能力

蒸馏架构

基于蒸馏版视觉变换器(DeiT)架构，兼具高效与高性能

模型能力

图像分类

深度伪造检测

人脸真实性分析

使用案例

安全检测

社交媒体内容审核

自动识别社交媒体上的深度伪造图像

准确率99.2%

身份验证系统

作为生物识别系统的补充验证层

教育研究

数字媒体素养工具

帮助学生识别合成媒体

🚀 Virtus模型

Virtus是一个经过微调的视觉变换器（ViT）模型，用于二分类图像识别。它专门针对区分真实图像和深度伪造图像进行了训练，在包含超过190,000张图像的平衡数据集上，实现了约99.2%的准确率。

🚀 快速开始

from transformers import AutoFeatureExtractor, AutoModelForImageClassification
from PIL import Image
import torch

model = AutoModelForImageClassification.from_pretrained("agasta/virtus")
extractor = AutoFeatureExtractor.from_pretrained("agasta/virtus")

image = Image.open("path_to_image.jpg")
inputs = extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(model.config.id2label[predicted_class])

✨ 主要特性

基于facebook/deit-base-distilled-patch16-224模型进行微调，适用于二分类图像识别任务。
在大规模真实和虚假面部图像数据集上进行训练，训练过程中采用了类别平衡、数据增强等技术。
可用于预测输入图像是真实图像还是深度伪造图像，可部署在图像分析流程中，或集成到需要媒体真实性检测的应用程序中。

📚 详细文档

模型详情

模型描述

Virtus基于facebook/deit-base-distilled-patch16-224模型，在一个包含大量真实和虚假面部图像的数据集上进行了二分类任务的微调。训练过程包括类别平衡、数据增强，并使用准确率和F1分数进行评估。

属性	详情
开发者	Agasta
资助方	无
共享者	Agasta
模型类型	用于图像分类的视觉变换器（ViT）
语言	不适用（视觉模型）
许可证	MIT
微调基础模型	facebook/deit-base-distilled-patch16-224

模型来源

仓库地址：https://huggingface.co/agasta/virtus

用途

直接使用

该模型可用于预测输入图像是真实图像还是深度伪造图像，可部署在图像分析流程中，或集成到需要媒体真实性检测的应用程序中。

下游使用

Virtus可用于更广泛的深度伪造检测系统、用于检测合成媒体的教育工具，或在线平台的预筛选系统。

适用范围外的使用

检测视频或音频中的深度伪造内容。
真实/虚假二分类领域之外的通用目标分类任务。

偏差、风险和局限性

数据集虽然是平衡的，但在面部特征、光照条件或人口统计方面可能仍然存在偏差。该模型对非标准输入尺寸或严重遮挡的面部也不够鲁棒。

⚠️ 重要提示

仅在与训练集性质相似的面部图像上使用。

在没有人工验证的情况下，不要用于关键或高风险决策。

定期使用更新的数据重新评估性能。

训练详情

训练数据

数据集包含190,335张自行收集的真实和深度伪造面部图像，使用RandomOverSampler对两个类别进行平衡。数据按60%训练和40%测试进行划分，并保持类别分层。

训练过程

预处理

图像调整为224x224大小。
数据增强：随机旋转、锐度调整、归一化。

训练超参数

训练轮数：2
学习率：1e-6
训练批次大小：32
评估批次大小：8
权重衰减：0.02
优化器：AdamW（通过Trainer API）
混合精度：未使用

评估

测试数据

使用相同的数据集，按60:40的比例分层划分进行评估。

评估指标

准确率
F1分数（宏平均）
混淆矩阵
分类报告

评估结果

准确率：99.20%
F1分数（宏平均）：0.9920

环境影响

硬件类型：NVIDIA Tesla V100（Kaggle Notebook GPU）
使用时长：约2.3小时
云服务提供商：Kaggle
计算区域：未知
碳排放：可通过MLCO2计算器进行估算

技术规格

模型架构和目标

该模型是一个经过蒸馏的视觉变换器（DeiT），专为图像分类设计，目标是将图像分类为真实或虚假。

计算基础设施

硬件：1个NVIDIA Tesla V100 GPU
软件：PyTorch、Hugging Face Transformers、Datasets、Accelerate

引用

BibTeX：

@misc{virtus2025,
  title={Virtus: Deepfake Detection using Vision Transformers},
  author={Agasta},
  year={2025},
  howpublished={\url{https://huggingface.co/agasta/virtus}},
}

APA： Agasta. (2025). Virtus: Deepfake Detection using Vision Transformers. Hugging Face. https://huggingface.co/agasta/virtus