RT-DETRv2（rtdetr_v2_r50vd）开源目标检测模型

首页

Rtdetr V2 R50vd

由 PekingU 开发

RT-DETRv2是一种改进的实时目标检测Transformer模型，通过选择性多尺度特征提取和动态数据增强等策略提升性能。

目标检测

Transformers

英语开源协议:Apache-2.0 #实时目标检测 #多尺度特征提取 #动态数据增强

下载量 15.77k

发布时间 : 1/31/2025

模型简介

RT-DETRv2是一种实时目标检测模型，基于Transformer架构，通过引入选择性多尺度特征提取和兼容性更广的离散采样算子等技术，在保持实时性能的同时提升了检测精度和灵活性。

模型特点

实时性能

在所有模型尺寸上均保持实时速度，同时超越前代模型的性能。

选择性多尺度特征提取

通过选择性多尺度特征提取提升检测精度。

动态数据增强

采用动态数据增强和尺度自适应超参数等训练策略，提升模型的灵活性和实用性。

模型能力

实时目标检测

多尺度特征提取

高精度检测

使用案例

自动驾驶

车辆和行人检测

实时检测道路上的车辆和行人，提升自动驾驶系统的安全性。

安防监控

异常行为检测

实时监控视频流，检测异常行为或可疑物体。

机器人技术

环境感知

帮助机器人实时感知周围环境中的物体和障碍物。

零售分析

商品识别

实时识别货架上的商品，用于库存管理和顾客行为分析。

🚀 RT-DETRv2

RT-DETRv2是一个用于实时目标检测的模型，它在RT-DETR的基础上进行了改进，引入了选择性多尺度特征提取等技术，在保持实时性能的同时，增强了模型的灵活性和实用性。

✨ 主要特性

性能提升：在所有模型尺寸上，RT-DETRv2始终优于其前身，同时保持相同的实时速度。
技术改进：引入选择性多尺度特征提取、离散采样算子，采用动态数据增强和尺度自适应超参数等训练策略。
应用广泛：适用于自动驾驶、监控系统、机器人技术和零售分析等多种实时目标检测场景。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
import requests

from PIL import Image
from transformers import RTDetrV2ForObjectDetection, RTDetrImageProcessor

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_v2_r50vd")
model = RTDetrV2ForObjectDetection.from_pretrained("PekingU/rtdetr_v2_r50vd")

inputs = image_processor(images=image, return_tensors="pt")

with torch.no_grad():
     outputs = model(**inputs)

results = image_processor.post_process_object_detection(outputs, target_sizes=torch.tensor([(image.height, image.width)]), threshold=0.5)

for result in results:
     for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
         score, label = score.item(), label_id.item()
         box = [round(i, 2) for i in box.tolist()]
         print(f"{model.config.id2label[label]}: {score:.2f} {box}")

运行结果示例

cat: 0.97 [341.14, 25.11, 639.98, 372.89]
cat: 0.96 [12.78, 56.35, 317.67, 471.34]
remote: 0.95 [39.96, 73.12, 175.65, 117.44]
sofa: 0.86 [-0.11, 2.97, 639.89, 473.62]
sofa: 0.82 [-0.12, 1.78, 639.87, 473.52]
remote: 0.79 [333.65, 76.38, 370.69, 187.48]

📚 详细文档

概述

RT-DETRv2模型由Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang和Yi Liu在论文RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer中提出。该模型在RT-DETR的基础上进行了改进，引入了选择性多尺度特征提取、离散采样算子，采用了动态数据增强和尺度自适应超参数等训练策略。这些改进在保持实时性能的同时，增强了模型的灵活性和实用性。

此模型由@jadechoghari在@cyrilvallez和@qubvel-hf的帮助下贡献。