基础模型:microsoft/Florence-2-base-ft
库名称:peft
许可证:apache-2.0
语言:
- 英语
任务标签:视觉问答
评估指标:
- 准确率
标签:
- 深度伪造检测
FLODA:专为深度伪造评估优化的Florence-2模型
模型描述
FLODA(专为深度伪造评估优化的Florence-2模型)是一款先进的深度伪造检测模型,它利用视觉语言模型(VLMs)的强大能力。该模型通过将图像描述生成和真实性评估整合到单一的端到端架构中,旨在超越现有的深度伪造检测模型。
核心特性
- 采用Florence-2作为基础视觉语言模型,同时支持描述生成和深度伪造检测
- 将深度伪造检测重构为视觉问答(VQA)任务
- 整合图像描述信息以增强上下文理解
- 使用rsLoRA(秩稳定的低秩自适应)进行高效微调
- 在多样化场景中展现出强大的泛化能力
- 对对抗性攻击具有鲁棒性
模型架构
FLODA基于Florence-2模型,包含两大核心组件:
- 视觉编码器:采用DaViT(双重注意力视觉变换器)
- 多模态编码器-解码器:基于标准变换器架构
模型采用rsLoRA微调,配置如下:
- 秩(r):8
- Alpha(α):8
- 丢弃率:0.05
- 目标模块:q_proj, k_proj, v_proj, out_proj, lm_head
性能表现
FLODA在深度伪造检测中达到领先水平:
- 跨所有数据集的平均准确率:97.14%
- 在真实和伪造图像数据集上均表现优异
- 在多个伪造数据集和所有受攻击数据集上实现100%准确率
使用方式
from transformers import AutoProcessor, AutoModelForCausalLM
from PIL import Image
import torch
model_path = "path/to/floda/model"
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to("cuda").eval()
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
def detect_deepfake(image_path):
image = Image.open(image_path).convert("RGB")
task_prompt = "<DEEPFAKE_DETECTION>"
text_input = "这张照片是真实的吗?"
inputs = processor(text=task_prompt + text_input, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
generated_ids = model.generate(
input_ids=inputs["input_ids"],
pixel_values=inputs["pixel_values"],
max_new_tokens=1024,
num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
result = processor.post_process_generation(generated_text, task=task_prompt, image_size=(image.width, image.height))[task_prompt]
return "真实" if result.lower() == "yes" else "伪造"
result = detect_deepfake("path/to/image.jpg")
print(f"检测结果:{result}")
训练数据
FLODA的训练数据包含:
- 真实图像:MS COCO
- 伪造图像:由SD2和LaMa生成
评估数据
模型在16个数据集上评估:
- 2个真实图像数据集:MS COCO, Flickr30k
- 14个伪造图像数据集(由SD2/SDXL/DeepFloyd IF/DALLE-2/SGXL等生成)
- 包含风格化图像、修复图像、分辨率变化和人脸替换等场景
- 涵盖对抗性攻击、后门攻击和数据投毒攻击数据集
局限性
- 在ControlNet数据集上准确率(77.07%)低于部分竞品模型
- 对训练/评估数据未覆盖的最新AI生成图像技术的检测效果存在不确定性
伦理考量
尽管FLODA在深度伪造检测中表现优异,仍需注意:
- 误判可能在使用场景中造成重大影响
- 需持续更新以应对新型图像生成技术
- 处理用户提交图像时的隐私保护问题
模型卡作者
- 裴永浩(汉阳大学)
- 韩建熙(延世大学)
- 朴承贤(延世大学)
联系方式
有关本模型卡或FLODA模型的咨询请联系:
裴永浩
邮箱:byh711@gmail.com
框架版本