零样本目标检测

# 零样本目标检测

Llmdet Swin Large Hf

LLMDet是基于大语言模型监督的强开放词汇目标检测器，CVPR2025亮点论文成果

Llmdet Swin Base Hf

LLMDet是一个基于大语言模型监督的开放词汇目标检测器，能够实现零样本目标检测。

Llmdet Swin Tiny Hf

LLMDet是基于大语言模型监督的强开放词汇目标检测器，能够实现零样本目标检测。

VLM R1 Qwen2.5VL 3B OVD 0321

基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型，通过VLM-R1强化学习增强，支持开放词汇检测任务。

文本生成图像英语

Inference Endpoint For Omdet Turbo Swin Tiny Hf

基于Swin-Tiny架构的零样本目标检测模型，支持法语和英语，适用于多种场景的目标检测任务。

Transformers 支持多种语言

YOLOE是一个实时视觉全能模型，支持零样本目标检测等多种视觉任务。

YOLOE是一个实时视觉全能模型，结合了目标检测和视觉理解能力，适用于多种视觉任务。

YOLOE 是一个零样本目标检测模型，能够实时检测视觉场景中的各种物体。

Qwen2.5vl 3B VLM R1 REC 500steps

基于Qwen2.5-VL-3B-Instruct的视觉语言模型，通过VLM-R1强化学习增强，专注于指代表达式理解任务。

文本生成图像

Safetensors 英语

Grounding Dino Tiny ONNX

基于ONNX格式的轻量级零样本目标检测模型，兼容Transformers.js，适用于浏览器端部署。

Paligemma2 10b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Omdet Turbo Swin Tiny Hf

OmDet-Turbo是基于实时Transformer的高效融合头开放词汇检测模型，适用于零样本目标检测任务。

Owlv2 Large Patch14 Ensemble

OWLv2是一种零样本文本条件目标检测模型，可通过文本查询检测图像中的对象。

文本生成图像

Thomasboosinger

Owlv2 Base Patch16

OWLv2是一个基于视觉语言预训练的模型，专注于对象检测和定位任务。

Owlvit Base Patch32

OWL-ViT是一个基于视觉Transformer的零样本目标检测模型，能够在不进行微调的情况下检测新类别的物体。

Owlv2 Base Patch16 Ensemble

OWLv2是一种零样本文本条件目标检测模型，可通过文本查询在图像中定位物体。

Owlv2 Base Patch16

OWLv2是一种零样本文本条件目标检测模型，可通过文本查询对图像中的物体进行检测和定位。

文本生成图像

Owlv2 Large Patch14 Finetuned

OWLv2是一个零样本文本条件目标检测模型，可通过文本查询在图像中检测物体，无需特定类别的训练数据。

文本生成图像

Owlv2 Large Patch14 Ensemble

OWLv2是一个零样本文本条件目标检测模型，可通过文本查询在图像中定位对象。

文本生成图像

Owlv2 Large Patch14

OWLv2是一个零样本文本条件目标检测模型，可通过文本查询在图像中检测对象，无需特定类别的训练数据。

文本生成图像

Owlv2 Base Patch16 Finetuned

OWLv2是一个零样本文本条件目标检测模型，可通过文本查询检索图像中的对象。

Owlv2 Base Patch16 Ensemble

OWLv2是一种零样本文本条件目标检测模型，可通过文本查询在图像中定位对象。

文本生成图像

Owlv2 Base Patch16

OWLv2是一种零样本文本条件目标检测模型，可通过文本查询检索图像中的对象。

文本生成图像

Grounding Dino Base

Grounding DINO是一个开放集目标检测模型，通过结合DINO检测器与文本编码器实现零样本目标检测能力。

Grounding Dino Tiny

Grounding DINO是一个结合DINO检测器与接地预训练的开放集目标检测模型，能够实现零样本目标检测。

Owlvit Large Patch14

OWL-ViT是一个零样本文本条件目标检测模型，可通过文本查询检索图像中的对象。

文本生成图像

Owlvit Base Patch16

OWL-ViT是一个零样本文本条件目标检测模型，可通过文本查询在图像中检测物体。

文本生成图像

Owlvit Base Patch32

OWL-ViT是一个零样本文本条件目标检测模型，可以通过文本查询搜索图像中的对象，无需特定类别的训练数据。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24