许可证: apache-2.0
标签:
- 目标检测
- 视觉
数据集:
- coco
示例展示:
- 图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/savanna.jpg
示例标题: 热带草原
- 图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/football-match.jpg
示例标题: 足球比赛
- 图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/airport.jpg
示例标题: 机场
基于ResNet-101骨干网络(扩张C5阶段)的条件DETR模型
注:模型权重已从原始实现转换为transformers
版本,并以PyTorch和Safetensors格式发布。原始权重可从原仓库下载
条件检测变换器(DETR)模型在COCO 2017目标检测数据集(11.8万张标注图像)上端到端训练而成。该模型由Meng等人在论文Conditional DETR for Fast Training Convergence中提出,并首次发布于此代码库。
模型描述
近期提出的DETR方法将Transformer编码器-解码器架构应用于目标检测,取得了显著效果。本文针对训练收敛速度慢这一关键问题,提出了一种条件交叉注意力机制以加速DETR训练。我们的动机是:DETR中的交叉注意力高度依赖内容嵌入来定位物体四极点和预测边界框,这加大了对高质量内容嵌入的需求,从而增加了训练难度。我们提出的条件DETR通过学习解码器嵌入生成的条件空间查询,用于解码器的多头交叉注意力。其优势在于:通过条件空间查询,每个交叉注意力头能够聚焦于包含不同区域的带状范围(如物体极点或框内区域)。这缩小了定位分类和回归所需特征的空间范围,降低了对内容嵌入的依赖,从而简化了训练。实验表明,条件DETR在R50和R101骨干网络上收敛速度快6.7倍,在更强骨干DC5-R50和DC5-R101上快10倍。

使用场景与限制
该模型可直接用于目标检测任务。访问模型库可查看所有可用条件DETR模型。
使用方法
使用方式如下:
from transformers import AutoImageProcessor, ConditionalDetrForObjectDetection
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("Omnifact/conditional-detr-resnet-101-dc5")
model = ConditionalDetrForObjectDetection.from_pretrained("Omnifact/conditional-detr-resnet-101-dc5")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
target_sizes = torch.tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.7)[0]
for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
box = [round(i, 2) for i in box.tolist()]
print(
f"检测到 {model.config.id2label[label.item()]},置信度 "
f"{round(score.item(), 3)},位置 {box}"
)
输出示例:
检测到 猫,置信度 0.865,位置 [13.95, 64.98, 327.14, 478.82]
检测到 遥控器,置信度 0.849,位置 [39.37, 83.18, 187.67, 125.02]
检测到 猫,置信度 0.743,位置 [327.22, 35.17, 637.54, 377.04]
检测到 遥控器,置信度 0.737,位置 [329.36, 89.47, 376.42, 197.53]
训练数据
条件DETR模型在COCO 2017目标检测数据集上训练,包含训练集11.8万张/验证集5千张标注图像。
BibTeX引用
@inproceedings{MengCFZLYS021,
author = {Depu Meng and
Xiaokang Chen and
Zejia Fan and
Gang Zeng and
Houqiang Li and
Yuhui Yuan and
Lei Sun and
Jingdong Wang},
title = {Conditional {DETR} for Fast Training Convergence},
booktitle = {2021 {IEEE/CVF} International Conference on Computer Vision, {ICCV}
2021, Montreal, QC, Canada, October 10-17, 2021},
}