库名称:transformers
许可证:apache-2.0
支持语言:
- 英文
任务标签:目标检测
标签:
- 目标检测
- 视觉
数据集:
- coco
示例展示:
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/savanna.jpg
示例标题:热带草原
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/football-match.jpg
示例标题:足球比赛
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/airport.jpg
示例标题:机场
RT-DETR模型卡
目录
- 模型详情
- 模型来源
- 快速开始
- 训练详情
- 评估
- 模型架构与目标
- 引用
模型详情

YOLO系列因其在速度与精度间的平衡成为实时目标检测最流行框架。但研究发现,非极大值抑制(NMS)会负面影响YOLO的性能。近期,基于Transformer的端到端检测器(DETR)提供了消除NMS的替代方案,然而高计算成本限制了其实用性。本文提出首个实时端到端检测器RT-DETR,通过两阶段优化:先保持精度提升速度,再保持速度提升精度。具体采用高效混合编码器解耦跨尺度融合,并设计不确定性最小化查询选择机制。RT-DETR-R50/R101在COCO上达到53.1%/54.3% AP,T4 GPU实现108/74 FPS,全面超越现有YOLO。项目页:链接
- 开发者:赵毅安、崔相范
- 资助方:中国国家重点研发计划、国家自然科学基金等
- 共享者:崔相范
- 模型类型:RT-DETR
- 许可证:Apache-2.0
模型来源
- 文档:RT-DETR说明
- 代码库:https://github.com/lyuwenyu/RT-DETR
- 论文:https://arxiv.org/abs/2304.08069
- 演示:实时追踪Demo
快速开始
import torch
import requests
from PIL import Image
from transformers import RTDetrForObjectDetection, RTDetrImageProcessor
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r101vd")
model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r101vd")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
results = processor.post_process_object_detection(outputs, target_sizes=torch.tensor([image.size[::-1]]), threshold=0.3)
for result in results:
for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
print(f"{model.config.id2label[label_id.item()]}: {score.item():.2f} {[round(i,2) for i in box.tolist()]}")
输出示例:
沙发: 0.97 [0.14, 0.38, 640.13, 476.21]
猫: 0.96 [343.38, 24.28, 640.14, 371.5]
猫: 0.96 [13.23, 54.18, 318.98, 472.22]
遥控器: 0.95 [40.11, 73.44, 175.96, 118.48]
遥控器: 0.92 [333.73, 76.58, 369.97, 186.99]
训练详情
训练数据
使用COCO 2017数据集,含11.8万训练图/5千验证图。
预处理
图像缩放至640x640,标准化参数:image_mean=[0.485, 0.456, 0.406]
, image_std=[0.229, 0.224, 0.225]
。
超参数

评估
模型 |
训练轮次 |
参数量(M) |
计算量(GFLOPs) |
实时FPS |
AP |
AP50 |
AP75 |
AP小目标 |
AP中目标 |
AP大目标 |
RT-DETR-R18 |
72 |
20 |
60.7 |
217 |
46.5 |
63.8 |
50.4 |
28.4 |
49.8 |
63.0 |
RT-DETR-R50预训练 |
24 |
42 |
136 |
108 |
55.3 |
73.4 |
60.1 |
37.9 |
59.9 |
71.8 |
模型架构

RT-DETR采用混合编码器处理多尺度特征,通过注意力机制(AIFI)和CNN跨尺度融合(CCFF)生成序列特征,经不确定性最小化查询选择后,由解码器迭代优化检测结果。
引用
@misc{lv2023detrs,
title={DETRs Beat YOLOs on Real-time Object Detection},
author={赵毅安等},
year={2023},
eprint={2304.08069},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
模型卡作者
崔相范
帕维尔·雅库博夫斯基