库名称: transformers
许可证: apache-2.0
语言:
- 英文
任务标签: 目标检测
标签:
- 目标检测
- 视觉
数据集:
- coco
示例:
- 图片链接: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/savanna.jpg
示例标题: 热带草原
- 图片链接: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/football-match.jpg
示例标题: 足球比赛
- 图片链接: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/airport.jpg
示例标题: 机场
RT-DETR模型卡
目录
- 模型详情
- 模型来源
- 快速开始
- 训练详情
- 评估
- 模型架构与目标
- 引用
模型详情

YOLO系列因其在速度与精度间的平衡成为实时目标检测最流行的框架。
但我们发现非极大值抑制(NMS)会负面影响YOLO的速度和精度。
近期,基于Transformer的端到端检测器(DETR)提供了消除NMS的替代方案。
然而,高昂的计算成本限制了其实用性,使其无法充分发挥去除NMS的优势。
本文提出实时检测Transformer(RT-DETR),这是首个解决上述困境的实时端到端目标检测器。
我们分两步构建RT-DETR:首先在保证精度的前提下提升速度,随后在保持速度的同时提高精度。
具体而言,我们设计高效混合编码器,通过解耦尺度内交互与跨尺度融合来快速处理多尺度特征。
提出不确定性最小化查询选择机制为解码器提供高质量初始查询。
此外,RT-DETR支持通过调整解码器层数实现灵活的速度调节。
RT-DETR-R50/R101在COCO上达到53.1%/54.3% AP,T4 GPU上实现108/74 FPS,速度与精度均超越先进YOLO模型。
这是Hugging Face transformers库的模型卡。
- 开发者: 赵毅安、崔相范
- 资助方: 中国国家重点研发计划、国家自然科学基金等
- 共享者: 崔相范
- 模型类型: RT-DETR
- 许可证: Apache-2.0
模型来源
- 文档: RT-DETR
- 代码库: https://github.com/lyuwenyu/RT-DETR
- 论文: https://arxiv.org/abs/2304.08069
- 演示: RT-DETR追踪
快速开始
import torch
import requests
from PIL import Image
from transformers import RTDetrForObjectDetection, RTDetrImageProcessor
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
results = processor.post_process_object_detection(outputs, threshold=0.3)
for result in results:
for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
print(f"{model.config.id2label[label_id.item()]}: {score.item():.2f} {[round(i,2) for i in box.tolist()]}")
输出示例:
沙发: 0.97 [0.14, 0.38, 640.13, 476.21]
猫: 0.96 [343.38, 24.28, 640.14, 371.5]
猫: 0.96 [13.23, 54.18, 318.98, 472.22]
遥控器: 0.95 [40.11, 73.44, 175.96, 118.48]
遥控器: 0.92 [333.73, 76.58, 369.97, 186.99]
训练详情
训练数据
使用COCO 2017目标检测数据集,包含11.8万训练图像和5千验证图像。
训练流程
在COCO train2017训练,val2017验证。评估指标包括AP、AP50、AP75及不同尺度的AP。
预处理
图像缩放至640x640,标准化参数为image_mean=[0.485, 0.456, 0.406]
,image_std=[0.229, 0.224, 0.225]
。
超参数

评估
模型 |
训练周期 |
参数量(M) |
计算量(GFLOPs) |
帧率(FPS) |
AP |
AP50 |
AP75 |
AP小目标 |
AP中目标 |
AP大目标 |
RT-DETR-R18 |
72 |
20 |
60.7 |
217 |
46.5 |
63.8 |
50.4 |
28.4 |
49.8 |
63.0 |
RT-DETR-R50预训练 |
24 |
42 |
136 |
108 |
55.3 |
73.4 |
60.1 |
37.9 |
59.9 |
71.8 |
模型架构

RT-DETR架构包含:高效混合编码器(AIFI+CCFF模块)、不确定性最小化查询选择机制、带辅助预测头的解码器。
引用
@misc{lv2023detrs,
title={DETRs Beat YOLOs on Real-time Object Detection},
author={赵毅安等},
year={2023},
eprint={2304.08069}
}
模型卡作者
崔相范
帕维尔·雅库博夫斯基