rtdetr_r101vd开源目标检测模型 - 实时高效检测，无需后处理超省心

首页

Rtdetr R101vd

由 PekingU 开发

RT-DETR是首个实时端到端目标检测器，通过混合编码器和查询选择机制实现高效检测，无需NMS后处理。

目标检测

Transformers

英语开源协议:Apache-2.0 #实时目标检测 #端到端无NMS #多尺度特征融合

下载量 1,369

发布时间 : 6/5/2024

模型简介

基于Transformer的实时目标检测模型，在COCO数据集上实现高精度与高速度的平衡，支持端到端检测。

模型特点

实时端到端检测

消除传统检测器的NMS后处理，实现纯端到端流程

混合编码器设计

结合CNN与Transformer优势，通过AIFI和CCFF模块高效处理多尺度特征

不确定性最小化查询选择

优化初始查询生成，提升检测精度与收敛速度

模型能力

实时目标检测

多尺度物体识别

端到端预测

使用案例

智能监控

机场安检

实时检测行李中的违禁物品

108FPS处理速度满足实时性要求

体育分析

足球比赛追踪

实时追踪球员与球的位置

74FPS@R101模型可处理高清视频流

🚀 RT-DETR 模型卡片

RT-DETR 是首个实时端到端目标检测器，解决了现有目标检测模型在速度和精度平衡上的难题。它通过高效混合编码器和不确定性最小查询选择等方法，在速度和精度上均超越了之前先进的 YOLO 系列模型，并且支持灵活的速度调整以适应不同场景。

🚀 快速开始

使用以下代码开始使用该模型：

import torch
import requests

from PIL import Image
from transformers import RTDetrForObjectDetection, RTDetrImageProcessor

url = 'http://images.cocodataset.org/val2017/000000039769.jpg' 
image = Image.open(requests.get(url, stream=True).raw)

image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r101vd")
model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r101vd")

inputs = image_processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

results = image_processor.post_process_object_detection(outputs, target_sizes=torch.tensor([image.size[::-1]]), threshold=0.3)

for result in results:
    for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
        score, label = score.item(), label_id.item()
        box = [round(i, 2) for i in box.tolist()]
        print(f"{model.config.id2label[label]}: {score:.2f} {box}")

这段代码的输出应该如下：

sofa: 0.97 [0.14, 0.38, 640.13, 476.21]
cat: 0.96 [343.38, 24.28, 640.14, 371.5]
cat: 0.96 [13.23, 54.18, 318.98, 472.22]
remote: 0.95 [40.11, 73.44, 175.96, 118.48]
remote: 0.92 [333.73, 76.58, 369.97, 186.99]

✨ 主要特性

解决速度与精度难题：YOLO 系列在实时目标检测中很受欢迎，但速度和精度受 NMS 影响；基于 Transformer 的 DETR 虽可消除 NMS，但计算成本高。RT-DETR 是首个实时端到端目标检测器，解决了上述困境。
分两步构建模型：借鉴先进的 DETR，先在保持精度的同时提高速度，再在保持速度的同时提高精度。
高效混合编码器：通过解耦尺度内交互和跨尺度融合，设计了高效混合编码器，快速处理多尺度特征，提高速度。
不确定性最小查询选择：提出不确定性最小查询选择，为解码器提供高质量初始查询，提高精度。
灵活速度调整：支持通过调整解码器层数灵活调整速度，适应各种场景，无需重新训练。
性能超越现有模型：RT-DETR-R50 / R101 在 COCO 上达到 53.1% / 54.3% 的 AP，在 T4 GPU 上达到 108 / 74 FPS，在速度和精度上均超越之前先进的 YOLO 模型。

📦 安装指南

文档未提供具体安装命令，故跳过此章节。

💻 使用示例

基础用法

import torch
import requests

from PIL import Image
from transformers import RTDetrForObjectDetection, RTDetrImageProcessor

url = 'http://images.cocodataset.org/val2017/000000039769.jpg' 
image = Image.open(requests.get(url, stream=True).raw)

image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r101vd")
model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r101vd")

inputs = image_processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

results = image_processor.post_process_object_detection(outputs, target_sizes=torch.tensor([image.size[::-1]]), threshold=0.3)

for result in results:
    for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
        score, label = score.item(), label_id.item()
        box = [round(i, 2) for i in box.tolist()]
        print(f"{model.config.id2label[label]}: {score:.2f} {box}")

高级用法

文档未提供高级用法代码示例，故跳过此部分。

📚 详细文档

模型详情

image/png

YOLO 系列由于在速度和精度之间进行了合理的权衡，已成为实时目标检测最流行的框架。然而，我们观察到 YOLO 的速度和精度受到 NMS 的负面影响。最近，基于端到端 Transformer 的检测器（DETR）提供了一种消除 NMS 的替代方案。然而，高计算成本限制了它们的实用性，并阻碍了它们充分发挥排除 NMS 的优势。在本文中，我们提出了实时检测 Transformer（RT-DETR），据我们所知，这是第一个解决上述困境的实时端到端目标检测器。我们借鉴先进的 DETR，分两步构建 RT-DETR：首先，我们专注于在提高速度的同时保持精度，然后在保持速度的同时提高精度。具体来说，我们设计了一个高效的混合编码器，通过解耦尺度内交互和跨尺度融合来快速处理多尺度特征，以提高速度。然后，我们提出了不确定性最小查询选择，为解码器提供高质量的初始查询，从而提高精度。此外，RT-DETR 支持通过调整解码器层数来灵活调整速度，以适应各种场景，而无需重新训练。我们的 RT-DETR-R50 / R101 在 COCO 上达到 53.1% / 54.3% 的 AP，在 T4 GPU 上达到 108 / 74 FPS，在速度和精度上均优于之前先进的 YOLO。我们还开发了缩放版的 RT-DETR，优于较轻量级的 YOLO 检测器（S 和 M 模型）。此外，RT-DETR-R50 在精度上比 DINO-R50 高 2.2% 的 AP，在 FPS 上约高 21 倍。在使用 Objects365 进行预训练后，RT-DETR-R50 / R101 达到 55.3% / 56.2% 的 AP。项目页面：https URL。

模型来源

HF 文档：RT-DETR
代码仓库：https://github.com/lyuwenyu/RT-DETR
论文：https://arxiv.org/abs/2304.08069
演示：RT-DETR Tracking

训练详情

训练数据

RTDETR 模型在 COCO 2017 目标检测数据集上进行训练，该数据集分别包含 118k/5k 张带注释的图像用于训练/验证。

训练过程

我们在 COCO 和 Objects365 数据集上进行实验，其中 RT-DETR 在 COCO train2017 上训练，在 COCO val2017 数据集上验证。我们报告标准的 COCO 指标，包括 AP（在从 0.50 - 0.95 均匀采样的 IoU 阈值上平均，步长为 0.05）、AP50、AP75，以及不同尺度的 AP：APS、APM、APL。

预处理

图像被调整为 640x640 像素，并使用 image_mean=[0.485, 0.456, 0.406] 和 image_std=[0.229, 0.224, 0.225] 进行重新缩放。

评估

模型	训练轮数	参数数量 (M)	GFLOPs	FPS_bs=1	AP (验证集)	AP50 (验证集)	AP75 (验证集)	AP-s (验证集)	AP-m (验证集)	AP-l (验证集)
RT-DETR-R18	72	20	60.7	217	46.5	63.8	50.4	28.4	49.8	63.0
RT-DETR-R34	72	31	91.0	172	48.5	66.2	52.3	30.2	51.9	66.2
RT-DETR R50	72	42	136	108	53.1	71.3	57.7	34.8	58.0	70.0
RT-DETR R101	72	76	259	74	54.3	72.7	58.6	36.0	58.8	72.1
RT-DETR-R18 (Objects 365 预训练)	60	20	61	217	49.2	66.6	53.5	33.2	52.3	64.8
RT-DETR-R50 (Objects 365 预训练)	24	42	136	108	55.3	73.4	60.1	37.9	59.9	71.8
RT-DETR-R101 (Objects 365 预训练)	24	76	259	74	56.2	74.6	61.3	38.3	60.5	73.5

模型架构与目标

image/png

RT-DETR 概述。我们将骨干网络最后三个阶段的特征输入到编码器中。高效混合编码器通过基于注意力的尺度内特征交互（AIFI）和基于 CNN 的跨尺度特征融合（CCFF）将多尺度特征转换为图像特征序列。然后，不确定性最小查询选择选择固定数量的编码器特征作为解码器的初始对象查询。最后，带有辅助预测头的解码器迭代优化对象查询，以生成类别和边界框。

🔧 技术细节

文档未提供超过 50 字的具体技术说明，故跳过此章节。

📄 许可证

本模型使用 Apache-2.0 许可证。

📚 引用

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Yian Zhao and Wenyu Lv and Shangliang Xu and Jinman Wei and Guanzhong Wang and Qingqing Dang and Yi Liu and Jie Chen},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}