库名称:transformers
许可证:apache-2.0
支持语言:
- 英文
任务标签:目标检测
标签:
- 目标检测
- 视觉
数据集:
- coco
示例展示:
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/savanna.jpg
示例标题:热带草原
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/football-match.jpg
示例标题:足球比赛
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/airport.jpg
示例标题:机场
RT-DETR模型卡
目录
- 模型详情
- 模型来源
- 快速上手指南
- 训练详情
- 评估结果
- 模型架构与目标
- 引用方式
模型详情

YOLO系列因其在速度与精度间的平衡成为实时目标检测的主流框架,但非极大值抑制(NMS)会对其性能产生负面影响。基于Transformer的端到端检测器DETR虽能消除NMS,但高计算成本限制了其实用性。本文提出首个实时端到端检测器RT-DETR,通过两阶段优化:首先保持精度提升速度,继而保持速度提升精度。具体采用高效混合编码器解耦尺度内交互与跨尺度融合加速处理,并提出不确定性最小化查询选择机制提升初始查询质量。RT-DETR支持通过调整解码器层数灵活适配不同场景,无需重新训练。RT-DETR-R50/R101在COCO上达到53.1%/54.3% AP与108/74 FPS,全面超越现有YOLO系列。轻量级变体亦优于YOLO S/M模型,R50版本精度超DINO-R50 2.2% AP且速度快21倍。经Objects365预训练后,R50/R101分别达到55.3%/56.2% AP。项目页:链接。
这是Hugging Face transformers库的模型卡,模型已推送至Hub。
- 开发者:赵毅安、崔相范
- 资助方:中国国家重点研发计划(2022ZD0118201)、国家自然科学基金(61972217等)、深圳市医学研究基金(B2302037)
- 共享者:崔相范
- 模型类型:RT-DETR
- 许可证:Apache-2.0
模型来源
- 文档:RT-DETR
- 代码库:https://github.com/lyuwenyu/RT-DETR
- 论文:https://arxiv.org/abs/2304.08069
- 演示:目标追踪演示
快速上手指南
import torch
import requests
from PIL import Image
from transformers import RTDetrForObjectDetection, RTDetrImageProcessor
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r101vd_coco_o365")
model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r101vd_coco_o365")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
results = processor.post_process_object_detection(outputs, target_sizes=torch.tensor([image.size[::-1]]), threshold=0.3)
for result in results:
for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
print(f"{model.config.id2label[label_id.item()]}: {score:.2f} {[round(i,2) for i in box.tolist()]}")
输出示例:
沙发: 0.97 [0.14, 0.38, 640.13, 476.21]
猫: 0.96 [343.38, 24.28, 640.14, 371.5]
猫: 0.96 [13.23, 54.18, 318.98, 472.22]
遥控器: 0.95 [40.11, 73.44, 175.96, 118.48]
遥控器: 0.92 [333.73, 76.58, 369.97, 186.99]
训练详情
训练数据
使用COCO 2017目标检测数据集,包含11.8万训练图像和5千验证图像。
训练流程
在COCO和Objects365数据集上进行实验,使用COCO train2017训练,val2017验证。评估指标包括AP(IoU阈值0.50-0.95)、AP50、AP75及不同尺度AP。
预处理
图像缩放至640x640像素,标准化参数为image_mean=[0.485, 0.456, 0.406]
,image_std=[0.229, 0.224, 0.225]
。
超参数配置

评估结果
模型 |
训练周期 |
参数量(M) |
计算量(GFLOPs) |
帧率(FPS) |
AP |
AP50 |
AP75 |
AP-s |
AP-m |
AP-l |
RT-DETR-R18 |
72 |
20 |
60.7 |
217 |
46.5 |
63.8 |
50.4 |
28.4 |
49.8 |
63.0 |
RT-DETR-R50预训练 |
24 |
42 |
136 |
108 |
55.3 |
73.4 |
60.1 |
37.9 |
59.9 |
71.8 |
模型架构与目标

RT-DETR工作流程:骨干网络最后三阶段特征输入混合编码器,通过注意力机制(AIFI)和CNN(CCFF)处理多尺度特征。不确定性最小化查询选择机制筛选初始对象查询,解码器通过辅助预测头迭代优化生成检测结果。
引用方式
@misc{lv2023detrs,
title={DETRs Beat YOLOs on Real-time Object Detection},
author={赵毅安等},
year={2023},
eprint={2304.08069},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
模型卡作者
崔相范
Pavel Iakubovskii