Gemma 3 4b Pt Object Detection

G

Gemma 3 4b Pt Object Detection

由 ariG23498 开发

基于Gemma 3 4B微调的车牌检测专用模型，验证了视觉语言模型无需目标检测预训练即可实现定位能力

开源协议:Apache-2.0 #车牌定位检测 #视觉语言模型微调 #无预训练定位

下载量 133

发布时间 : 4/17/2025

模型简介

该模型通过微调Gemma 3 4B基础模型，实现了对车辆牌照的检测功能，证明了视觉语言模型在不具备定位标记先验知识的情况下仍可完成目标检测任务

模型特点

零样本目标检测能力

无需目标检测预训练即可实现定位功能

高效微调方案

基于Gemma 3基础模型的参数高效微调

开源可复现

完整代码和训练流程已开源

模型能力

图像中的车牌检测

目标定位

视觉语言理解

使用案例

智能交通

违章车牌识别

自动识别道路监控中的车辆牌照

示例图片显示可准确框选不同角度和光照条件下的车牌

安防监控

停车场车辆管理

自动识别进出车辆的牌照信息

精选推荐AI模型

Qwen2.5 VL 7B Abliterated Caption It I1 GGUF

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

图像生成文本

Transformers 支持多种语言

Nunchaku Flux.1 Dev Colossus

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

Qwen2.5 VL 7B Abliterated Caption It GGUF

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

图像生成文本

Transformers 支持多种语言

Olmocr 7B 0725 FP8

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

图像生成文本

Transformers 英语

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

大型语言模型

Transformers 英语

AIbase

智启未来，您的人工智能解决方案智库

© 2025AIbase 备案号：闽ICP备08105208号-24