library_name: ultralytics
pipeline_tag: object-detection
license: agpl-3.0
YOLOE的官方PyTorch实现
在开放文本提示场景下,YOLOE(本工作)与YOLO-Worldv2在性能、训练成本和推理效率上的对比。
YOLOE:实时视觉全能模型。
作者:王傲*、刘立豪*、陈辉、林子佳、韩军功、丁贵广

我们提出YOLOE(ye)——一个如人眼般高效、统一且开放的目标检测与分割模型,支持文本、视觉输入及无提示范式等多种提示机制。
摘要
目标检测与分割技术广泛应用于计算机视觉领域,但YOLO系列等传统模型虽高效精准,却受限于预定义类别,难以适应开放场景。近期开放集方法通过文本提示、视觉线索或无提示范式突破这一限制,但常因高计算成本或部署复杂度而在性能与效率间妥协。本文提出YOLOE模型,将多种开放提示机制下的检测与分割功能集成于单一高效模型中,实现实时全能视觉感知。针对文本提示,我们提出可重参数化的区域-文本对齐策略(RepRTA),通过轻量级辅助网络优化预训练文本嵌入,以零推理和迁移开销增强视觉-文本对齐。对于视觉提示,我们设计语义激活的视觉提示编码器(SAVPE),采用解耦的语义与激活分支,以极低复杂度提升视觉嵌入质量与准确率。针对无提示场景,我们开发惰性区域-提示对比策略(LRPC),利用内置大词表与专用嵌入识别所有对象,避免依赖昂贵语言模型。大量实验表明,YOLOE在保持高推理效率和低训练成本的同时,展现出卓越的零样本性能与迁移能力。值得注意的是,在LVIS数据集上,YOLOE-v8-S以3倍更低训练成本和1.4倍更快推理速度,AP指标超越YOLO-Worldv2-S达3.5。迁移至COCO时,YOLOE-v8-L相较闭集YOLOv8-L获得0.6 $AP^b$和0.4 $AP^m$提升,且训练时间减少近4倍。
性能表现
零样本检测评估
- 固定AP基于LVIS
minival
集的文本(T)/视觉(V)提示结果
- 训练时间针对文本提示的检测任务(8块Nvidia RTX4090显卡)
- FPS分别在T4(TensorRT)和iPhone 12(CoreML)测得
- 训练数据中OG表示Objects365v1与GoldG
- YOLOE经重参数化后可变为YOLO系列模型,保持零推理与迁移开销
模型 |
尺寸 |
提示类型 |
参数量 |
数据 |
训练时间 |
FPS |
$AP$ |
$AP_r$ |
$AP_c$ |
$AP_f$ |
日志 |
YOLOE-v8-S |
640 |
T/V |
12M/13M |
OG |
12.0h |
305.8/64.3 |
27.9/26.2 |
22.3/21.3 |
27.8/27.7 |
29.0/25.7 |
T/V |
YOLOE-v8-M |
640 |
T/V |
27M/30M |
OG |
17.0h |
156.7/41.7 |
32.6/31.0 |
26.9/27.0 |
31.9/31.7 |
34.4/31.1 |
T/V |
YOLOE-v8-L |
640 |
T/V |
45M/50M |
OG |
22.5h |
102.5/27.2 |
35.9/34.2 |
33.2/33.2 |
34.8/34.6 |
37.3/34.1 |
T/V |
YOLOE-11-S |
640 |
T/V |
10M/12M |
OG |
13.0h |
301.2/73.3 |
27.5/26.3 |
21.4/22.5 |
26.8/27.1 |
29.3/26.4 |
T/V |
YOLOE-11-M |
640 |
T/V |
21M/27M |
OG |
18.5h |
168.3/39.2 |
33.0/31.4 |
26.9/27.1 |
32.5/31.9 |
34.5/31.7 |
T/V |
YOLOE-11-L |
640 |
T/V |
26M/32M |
OG |
23.5h |
130.5/35.1 |
35.2/33.7 |
29.1/28.1 |
35.0/34.6 |
36.5/33.8 |
T/V |
零样本分割评估
- 模型同零样本检测评估
- *标准APm*基于LVIS
val
集的文本(T)/视觉(V)提示结果
模型 |
尺寸 |
提示类型 |
$AP^m$ |
$AP_r^m$ |
$AP_c^m$ |
$AP_f^m$ |
YOLOE-v8-S |
640 |
T/V |
17.7/16.8 |
15.5/13.5 |
16.3/16.7 |
20.3/18.2 |
YOLOE-v8-M |
640 |
T/V |
20.8/20.3 |
17.2/17.0 |
19.2/20.1 |
24.2/22.0 |
YOLOE-v8-L |
640 |
T/V |
23.5/22.0 |
21.9/16.5 |
21.6/22.1 |
26.4/24.3 |
YOLOE-11-S |
640 |
T/V |
17.6/17.1 |
16.1/14.4 |
15.6/16.8 |
20.5/18.6 |
YOLOE-11-M |
640 |
T/V |
21.1/21.0 |
17.2/18.3 |
19.6/20.6 |
24.4/22.6 |
YOLOE-11-L |
640 |
T/V |
22.6/22.5 |
19.3/20.5 |
20.9/21.7 |
26.0/24.1 |
无提示评估
- 模型同零样本检测评估,但使用专用提示嵌入
- 固定AP基于LVIS
minival
集,FPS在Nvidia T4显卡(PyTorch)测得
COCO下游迁移
- 迁移时YOLOE-v8/YOLOE-11与YOLOv8/YOLO11完全一致
- 线性探测仅分类头最后一层可训练
- 全参数微调所有参数可训练
模型 |
尺寸 |
训练轮数 |
$AP^b$ |
$AP^b_{50}$ |
$AP^b_{75}$ |
$AP^m$ |
$AP^m_{50}$ |
$AP^m_{75}$ |
日志 |
线性探测 |
|
|
|
|
|
|
|
|
|
YOLOE-v8-S |
640 |
10 |
35.6 |
51.5 |
|
|
|
|
|