零样本目标检测
Llmdet Swin Large Hf
Apache-2.0
LLMDet是基于大语言模型监督的强开放词汇目标检测器,CVPR2025亮点论文成果
目标检测
L
fushh7
3,428
1
Llmdet Swin Base Hf
Apache-2.0
LLMDet是一个基于大语言模型监督的开放词汇目标检测器,能够实现零样本目标检测。
目标检测
Safetensors
L
fushh7
605
0
Llmdet Swin Tiny Hf
Apache-2.0
LLMDet是基于大语言模型监督的强开放词汇目标检测器,能够实现零样本目标检测。
目标检测
Safetensors
L
fushh7
2,451
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型,通过VLM-R1强化学习增强,支持开放词汇检测任务。
文本生成图像
英语
V
omlab
892
11
Inference Endpoint For Omdet Turbo Swin Tiny Hf
Apache-2.0
基于Swin-Tiny架构的零样本目标检测模型,支持法语和英语,适用于多种场景的目标检测任务。
目标检测
Transformers
支持多种语言
I
Blueway
199
1
Yoloe 11l Seg
YOLOE是一个实时视觉全能模型,支持零样本目标检测等多种视觉任务。
目标检测
Y
jameslahm
219
2
Yoloe V8l Seg
YOLOE是一个实时视觉全能模型,结合了目标检测和视觉理解能力,适用于多种视觉任务。
目标检测
Y
jameslahm
4,135
1
Yoloe V8s Seg
YOLOE 是一个零样本目标检测模型,能够实时检测视觉场景中的各种物体。
目标检测
Y
jameslahm
28
0
Qwen2.5vl 3B VLM R1 REC 500steps
基于Qwen2.5-VL-3B-Instruct的视觉语言模型,通过VLM-R1强化学习增强,专注于指代表达式理解任务。
文本生成图像
Safetensors
英语
Q
omlab
976
22
Grounding Dino Tiny ONNX
Apache-2.0
基于ONNX格式的轻量级零样本目标检测模型,兼容Transformers.js,适用于浏览器端部署。
目标检测
Transformers
G
onnx-community
98
1
Paligemma2 10b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers
P
google
31.63k
25
Omdet Turbo Swin Tiny Hf
Apache-2.0
OmDet-Turbo是基于实时Transformer的高效融合头开放词汇检测模型,适用于零样本目标检测任务。
目标检测
Safetensors
O
omlab
36.29k
33
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询检测图像中的对象。
文本生成图像
Transformers
O
Thomasboosinger
1
0
Owlv2 Base Patch16
OWLv2是一个基于视觉语言预训练的模型,专注于对象检测和定位任务。
目标检测
Transformers
O
Xenova
17
0
Owlvit Base Patch32
OWL-ViT是一个基于视觉Transformer的零样本目标检测模型,能够在不进行微调的情况下检测新类别的物体。
目标检测
Transformers
O
Xenova
86
1
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位物体。
目标检测
Transformers
O
upfeatmediainc
15
0
Owlv2 Base Patch16
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询对图像中的物体进行检测和定位。
文本生成图像
Transformers
O
vvmnnnkv
26
0
Owlv2 Large Patch14 Finetuned
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询在图像中检测物体,无需特定类别的训练数据。
文本生成图像
Transformers
O
google
1,434
4
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像
Transformers
O
google
262.77k
25
Owlv2 Large Patch14
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询在图像中检测对象,无需特定类别的训练数据。
文本生成图像
Transformers
O
google
3,679
5
Owlv2 Base Patch16 Finetuned
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询检索图像中的对象。
目标检测
Transformers
O
google
2,698
3
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像
Transformers
O
google
932.80k
99
Owlv2 Base Patch16
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询检索图像中的对象。
文本生成图像
Transformers
O
google
15.42k
26
Grounding Dino Base
Apache-2.0
Grounding DINO是一个开放集目标检测模型,通过结合DINO检测器与文本编码器实现零样本目标检测能力。
目标检测
Transformers
G
IDEA-Research
1.1M
87
Grounding Dino Tiny
Apache-2.0
Grounding DINO是一个结合DINO检测器与接地预训练的开放集目标检测模型,能够实现零样本目标检测。
目标检测
Transformers
G
IDEA-Research
771.67k
74
Owlvit Large Patch14
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可通过文本查询检索图像中的对象。
文本生成图像
Transformers
O
google
25.01k
25
Owlvit Base Patch16
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可通过文本查询在图像中检测物体。
文本生成图像
Transformers
O
google
4,588
12
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像
Transformers
O
google
764.95k
129