Moondream是一款轻量级视觉语言模型,专为高效全平台运行而设计。2025年4月14日发布的4比特量化版在保持高精度的同时大幅降低内存占用。
下载量 6,037
发布时间 : 5/20/2025
模型简介
Moondream是一个高效的视觉语言模型,能够处理图像文本生成、视觉问答、目标检测和定位标记等任务。其4比特量化版本通过量化感知训练技术实现了内存占用的大幅缩减。
模型特点
高效量化
采用4比特量化技术,内存占用减少42%,精度仅下降0.6%
全平台兼容
专为高效运行于各种硬件平台设计
多任务支持
支持图像描述生成、视觉问答、目标检测和定位标记等多种任务
高速推理
在Nvidia RTX 3090上达到184词元/秒的生成速度
模型能力
图像描述生成
视觉问答
目标检测
定位标记
流式生成
使用案例
图像理解
自动图像标注
为图像生成简短或标准长度的描述文本
可生成不同长度的图像描述
视觉问答系统
回答关于图像内容的自然语言问题
准确回答如'图中有多少人?'等问题
计算机视觉
目标检测
检测图像中的特定对象
可检测如人脸等特定对象
定位标记
标记图像中特定对象的位置
可标记如人物等对象的位置
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文