doubutsu-2b-pt-756开源视觉语言模型 - 轻量级设计，支持定制场景微调

首页

Doubutsu 2b Pt 756

由 qresearch 开发

doubutsu是一个轻量级视觉语言模型系列，专为定制化场景微调设计。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #轻量级视觉语言模型 #图文生成文本 #需微调适配器

下载量 129

发布时间 : 7/22/2024

模型简介

该模型是一个视觉语言模型，能够根据图像生成文本描述，适用于图文生成文本任务。

模型特点

轻量级设计

专为定制化场景微调设计，适合轻量级应用。

视觉语言模型

能够结合图像和文本信息，生成相关文本描述。

需微调使用

模型不可单独使用，需通过微调或使用现有适配器。

模型能力

图像描述生成

视觉问答

图文结合任务

使用案例

图像理解

图像描述生成

根据输入的图像生成详细的文本描述。

视觉问答

回答关于图像内容的特定问题。

🚀 doubutsu-2b-pt-756

doubutsu 是一系列小型视觉语言模型（VLM），旨在针对您的特定用例进行微调。

⚠️ 重要提示

请注意：此模型不能单独使用，您需要使用此 notebook 对其进行微调，或者使用现有的适配器。

💡 使用建议

这些模型需要较小的温度参数。我们建议使用 0.1 - 0.3 的温度值。

🚀 快速开始

doubutsu 由 @qtnx_ 和 @yeswondwerr 构建。

📦 安装指南

暂未提及安装相关内容，可参考使用示例中的依赖导入部分进行环境准备。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model_id = "qresearch/doubutsu-2b-pt-756"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    torch_dtype=torch.float16,
).to("cuda")

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    use_fast=True,
)

model.load_adapter("qresearch/doubutsu-2b-lora-756-docci")

image = Image.open("IMAGE")

print(
    model.answer_question(
        image, "Describe the image", tokenizer, max_new_tokens=128, temperature=0.1
    ),
)

📚 详细文档

评估

待确定。

致谢

Liu 等人：LLaVA
Moon 等人：AnyMAL
vikhyatk：moondream 代码库

                                       .x+=:.                                                             
                                      z`    ^%                                                  .uef^"    
               .u    .                   .   <k                           .u    .             :d88E       
    .u@u     .d88B :@8c       .u       .@8Ned8"      .u          u      .d88B :@8c        .   `888E       
 .zWF8888bx ="8888f8888r   ud8888.   .@^%8888"    ud8888.     us888u.  ="8888f8888r  .udR88N   888E .z8k  
.888  9888    4888>'88"  :888'8888. x88:  `)8b. :888'8888. .@88 "8888"   4888>'88"  <888'888k  888E~?888L 
I888  9888    4888> '    d888 '88%" 8888N=*8888 d888 '88%" 9888  9888    4888> '    9888 'Y"   888E  888E 
I888  9888    4888>      8888.+"     %8"    R88 8888.+"    9888  9888    4888>      9888       888E  888E 
I888  9888   .d888L .+   8888L        @8Wou 9%  8888L      9888  9888   .d888L .+   9888       888E  888E 
`888Nx?888   ^"8888*"    '8888c. .+ .888888P`   '8888c. .+ 9888  9888   ^"8888*"    ?8888u../  888E  888E 
 "88" '888      "Y"       "88888%   `   ^"F      "88888%   "888*""888"     "Y"       "8888P'  m888N= 888> 
       88E                  "YP'                   "YP'     ^Y"   ^Y'                  "P'     `Y"   888  
       98>                                                                                          J88"  
       '8                                                                                           @%    
        `                                                                                         :"