许可协议:apache-2.0
标签:
数据集:
示例展示:
- 图片源:https://huggingface.co/datasets/mishig/sample_images/resolve/main/savanna.jpg
示例标题:热带草原
- 图片源:https://huggingface.co/datasets/mishig/sample_images/resolve/main/football-match.jpg
示例标题:足球比赛
- 图片源:https://huggingface.co/datasets/mishig/sample_images/resolve/main/airport.jpg
示例标题:机场
基于ResNet-50的条件DETR模型
条件检测变换器(Conditional DETR)模型在COCO 2017目标检测数据集(11.8万张标注图像)上端到端训练完成。该模型由Meng等人在论文《Conditional DETR for Fast Training Convergence》中提出,并首次发布于此代码库。
模型描述
最近开发的DETR方法将Transformer编码器-解码器架构应用于目标检测,取得了令人瞩目的性能。本文针对训练收敛速度慢这一关键问题,提出了一种用于快速DETR训练的条件交叉注意力机制。我们的方法基于以下观察:DETR中的交叉注意力高度依赖内容嵌入来定位物体四极和预测边界框,这加大了对高质量内容嵌入的需求,从而增加了训练难度。我们提出的条件DETR通过学习解码器嵌入生成的条件空间查询,用于解码器的多头交叉注意力。其优势在于,通过条件空间查询,每个交叉注意力头能够关注包含不同区域的条带,例如物体的一极或物体框内的某个区域。这缩小了定位不同区域以进行物体分类和边界框回归的空间范围,从而降低了对内容嵌入的依赖,简化了训练过程。实验结果表明,条件DETR在R50和R101骨干网络上收敛速度快6.7倍,在更强的DC5-R50和DC5-R101骨干网络上快10倍。

预期用途与限制
您可将该原始模型用于目标检测任务。访问模型中心查看所有可用的条件DETR模型。
使用方法
使用方式如下:
from transformers import AutoImageProcessor, ConditionalDetrForObjectDetection
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/conditional-detr-resnet-50")
model = ConditionalDetrForObjectDetection.from_pretrained("microsoft/conditional-detr-resnet-50")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
target_sizes = torch.tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.7)[0]
for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
box = [round(i, 2) for i in box.tolist()]
print(
f"检测到 {model.config.id2label[label.item()]},置信度 "
f"{round(score.item(), 3)},位置 {box}"
)
预期输出:
检测到 remote,置信度 0.833,位置 [38.31, 72.1, 177.63, 118.45]
检测到 cat,置信度 0.831,位置 [9.2, 51.38, 321.13, 469.0]
检测到 cat,置信度 0.804,位置 [340.3, 16.85, 642.93, 370.95]
当前特征提取器和模型均仅支持PyTorch框架。
训练数据
条件DETR模型在COCO 2017目标检测数据集上训练,该数据集包含11.8万张训练图像和5千张验证图像,均带有标注。
BibTeX引用信息
@inproceedings{MengCFZLYS021,
author = {Depu Meng and
Xiaokang Chen and
Zejia Fan and
Gang Zeng and
Houqiang Li and
Yuhui Yuan and
Lei Sun and
Jingdong Wang},
title = {Conditional {DETR} for Fast Training Convergence},
booktitle = {2021 {IEEE/CVF} International Conference on Computer Vision, {ICCV}
2021, Montreal, QC, Canada, October 10-17, 2021},
}