moondream1开源多模态模型 - 免费部署，支持图像理解与问答任务

首页

Moondream1

由 vikhyatk 开发

16亿参数的多模态模型，融合SigLIP与Phi-1.5技术架构，支持图像理解和问答任务

图像生成文本

Transformers

英语#视觉问答 #轻量级多模态 #中文图像理解

下载量 70.48k

发布时间 : 1/20/2024

模型简介

基于LLaVa训练数据集构建的视觉语言模型，擅长图像内容理解和交互式问答，适用于研究场景

模型特点

轻量高效

仅16亿参数规模下实现接近70亿参数模型的视觉理解能力

多模态融合

结合视觉编码器(SigLIP)与语言模型(Phi-1.5)的优势

中文优化

针对中文场景进行特别优化，支持中文问答交互

模型能力

图像内容识别

视觉问答

场景理解

物体属性分析

多轮对话

使用案例

教育研究

图像学习辅助

解析教材插图内容并回答相关问题

准确识别图中书籍标题和场景细节

智能交互

场景问答系统

对用户上传图片进行实时问答

能准确描述图像中的物体、人物动作和环境特征

🚀 🌔 moondream1

moondream1是一个拥有16亿参数的模型，由@vikhyatk使用SigLIP、Phi - 1.5和LLaVa训练数据集构建而成。该模型仅用于研究目的，禁止商业使用。

你可以在Huggingface Spaces上体验这个模型！

🚀 快速开始

安装依赖

pip install transformers timm einops

代码示例

from transformers import AutoModelForCausalLM, CodeGenTokenizerFast as Tokenizer
from PIL import Image

model_id = "vikhyatk/moondream1"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = Tokenizer.from_pretrained(model_id)

image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "<QUESTION>", tokenizer))

📊 基准测试

模型	参数	VQAv2	GQA	TextVQA
LLaVA - 1.5	133亿	80.0	63.3	61.3
LLaVA - 1.5	73亿	78.5	62.0	58.2
moondream1	16亿	74.7	57.9	35.6

💻 使用示例

示例1

图片	示例
	这本书的书名是什么？《深度学习小书》关于这本书你能告诉我什么？图片中的书名为《深度学习小书》。它似乎是一本指南或手册，提供有关深度学习主题的信息和说明。这本书被描述为又小又薄，便于携带和阅读。它放在一个能看到外面景色的房间里，这表明拿着这本书的人可能在一个有风景可看的生活或工作空间里。正如书名所暗示的那样，这本书的内容可能很复杂，专注于深度学习的高级概念。这个人站在哪里？这个人站在外面的阳台或露台上。

图片

示例

这本书的书名是什么？
《深度学习小书》

关于这本书你能告诉我什么？
图片中的书名为《深度学习小书》。它似乎是一本指南或手册，提供有关深度学习主题的信息和说明。这本书被描述为又小又薄，便于携带和阅读。它放在一个能看到外面景色的房间里，这表明拿着这本书的人可能在一个有风景可看的生活或工作空间里。正如书名所暗示的那样，这本书的内容可能很复杂，专注于深度学习的高级概念。

这个人站在哪里？
这个人站在外面的阳台或露台上。

示例2

图片	示例
	女孩拿着什么食物？女孩拿着一个汉堡。女人的头发是什么颜色？女人的头发是白色的。图片中的女孩在做什么？图片中的女孩正在吃汉堡。

示例3

图片	示例
	火车是什么颜色的？火车是红色的。图片中的公交车在做什么？图片中的公交车正行驶在城市街道上，穿过一个十字路口。图片中有哪种公共交通工具？图片中的公共交通工具是一辆红色的火车或有轨电车。

示例4

图片	示例
	女孩在看什么？女孩在看镜子里自己的倒影。女人的头发是什么颜色？女人的头发是棕色的。女人在镜子前做什么？女人正在镜子前整理头发。

示例5

图片	示例
	狗表现出攻击行为的原因可能是什么？狗的攻击行为，包括咆哮、露出牙齿和展示锋利的牙齿，可能有多种原因。有可能是狗感到受到威胁、害怕，或者对周围环境中的某些事物（如另一只动物、嘈杂的声音或附近的人）感到防御。或者，狗可能是对主人发出的命令做出反应，也可能是身体不适或疼痛导致它表现出攻击行为。观察狗的肢体语言和周围环境，以确定其攻击行为的根本原因，并相应地采取措施满足它的需求或解决问题，这一点至关重要。图片中的狗是什么品种？图片中的狗是一只黑白相间的小吉娃娃。

图片

示例

狗表现出攻击行为的原因可能是什么？
狗的攻击行为，包括咆哮、露出牙齿和展示锋利的牙齿，可能有多种原因。有可能是狗感到受到威胁、害怕，或者对周围环境中的某些事物（如另一只动物、嘈杂的声音或附近的人）感到防御。或者，狗可能是对主人发出的命令做出反应，也可能是身体不适或疼痛导致它表现出攻击行为。观察狗的肢体语言和周围环境，以确定其攻击行为的根本原因，并相应地采取措施满足它的需求或解决问题，这一点至关重要。

图片中的狗是什么品种？
图片中的狗是一只黑白相间的小吉娃娃。