japanese-stable-vlm开源视觉语言模型 - 免费为图像生成日语描述及处理文本

首页

Japanese Stable Vlm

由 stabilityai 开发

一款视觉语言指令跟随模型，能够为输入图像生成日语描述，并可选地处理输入文本（如问题）。

图像生成文本

Transformers

日语开源协议:其他 #日语图像描述 #视觉问答系统 #多模态指令跟随

下载量 122

发布时间 : 11/1/2023

模型简介

日语稳定视觉语言模型是一款结合视觉与语言处理能力的模型，主要用于图像描述生成和视觉问答任务，特别针对日语场景优化。

模型特点

日语视觉语言理解

专门针对日语优化的视觉语言处理能力，能够准确理解日语指令和生成日语描述

多任务支持

支持图像描述生成、标签辅助描述和视觉问答等多种视觉语言任务

两阶段训练

采用两阶段训练策略，先训练MLP投影层，再微调语言模型和投影层，提高模型性能

模型能力

图像描述生成

视觉问答

日语文本处理

多模态理解

使用案例

内容生成

图像自动标注

为图像生成详细的日语描述

生成符合图像内容的自然语言描述

智能问答

视觉问答系统

回答关于图像内容的日语问题

提供准确的图像相关问答

🚀 日本稳定视觉语言模型（Japanese Stable VLM）

日本稳定视觉语言模型（Japanese Stable VLM）是一款视觉语言指令跟随模型，能够为输入的图像以及可选的输入文本（如问题）生成日语描述，可广泛应用于图像描述生成等视觉语言相关场景。

🚀 快速开始

请注意：如需商业使用此模型，请查看 https://stability.ai/license。

若您有关于商业使用的日语咨询，请发送邮件至 partners-jp@stability.ai。

✨ 主要特性

日本稳定视觉语言模型（Japanese Stable VLM）是一个视觉语言指令跟随模型，它可以为输入的图像和可选的输入文本（如问题）生成日语描述。

📦 安装指南

文档中未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq, AutoImageProcessor
from PIL import Image
import requests

# helper function to format input prompts
TASK2INSTRUCTION = {
    "caption": "画像を詳細に述べてください。",
    "tag": "与えられた単語を使って、画像を詳細に述べてください。",
    "vqa": "与えられた画像を下に、質問に答えてください。",
}


def build_prompt(task="caption", input=None, sep="\n\n### "):
    assert (
        task in TASK2INSTRUCTION
    ), f"Please choose from {list(TASK2INSTRUCTION.keys())}"
    if task in ["tag", "vqa"]:
        assert input is not None, "Please fill in `input`!"
        if task == "tag" and isinstance(input, list):
            input = "、".join(input)
    else:
        assert input is None, f"`{task}` mode doesn't support to input questions"
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    instruction = TASK2INSTRUCTION[task]
    msgs = [": \n" + instruction, ": \n"]
    if input:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + input)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p

# load model
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForVision2Seq.from_pretrained("stabilityai/japanese-stable-vlm", trust_remote_code=True)
processor = AutoImageProcessor.from_pretrained("stabilityai/japanese-stable-vlm")
tokenizer = AutoTokenizer.from_pretrained("stabilityai/japanese-stable-vlm")
model.to(device)

# prepare inputs
url = "https://images.unsplash.com/photo-1582538885592-e70a5d7ab3d3?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = build_prompt(task="caption")
# prompt = build_prompt(task="tag", input=["河津桜", "青空"])
# prompt = build_prompt(task="vqa", input="季節はいつですか？")

inputs = processor(images=image, return_tensors="pt")
text_encoding = tokenizer(prompt, add_special_tokens=False, return_tensors="pt")
inputs.update(text_encoding)

# generate
outputs = model.generate(
    **inputs.to(device, dtype=model.dtype),
    do_sample=False,
    num_beams=5,
    max_new_tokens=128,
    min_length=1,
    repetition_penalty=1.5,
)
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)
# 桜越しの東京スカイツリー

📚 详细文档

模型详情

属性	详情
开发者	Stability AI
模型类型	自回归视觉语言模型
语言	日语
许可证	STABILITY AI 社区许可证

训练

该模型是一个基于 LLaVA 1.5 架构的视觉语言指令跟随模型。它使用 stabilityai/japanese-stablelm-instruct-gamma-7b 作为语言模型，openai/clip-vit-large-patch14 作为图像编码器。在训练过程中，第一阶段从零开始训练 MLP 投影，第二阶段进一步训练语言模型和 MLP 投影。

训练数据集

训练数据集包括以下公共数据集：

CC12M，其字幕已翻译成日语
MS-COCO，搭配 STAIR Captions
日语视觉基因组 VQA 数据集

使用与限制

预期用途

该模型旨在供开源社区用于视觉语言应用。

限制和偏差

尽管应用了数据过滤，但训练数据集仍可能包含冒犯性或不适当的内容。我们建议用户在生产系统中使用这些模型时保持合理的谨慎。请勿将该模型用于任何可能对个人或群体造成伤害或困扰的应用。

引用方式

@misc{JapaneseStableVLM, 
    url    = {[https://huggingface.co/stabilityai/japanese-stable-vlm](https://huggingface.co/stabilityai/japanese-stable-vlm)}, 
    title  = {Japanese Stable VLM}, 
    author = {Shing, Makoto and Akiba, Takuya}
}

联系信息

若您对模型有疑问或建议，请加入 Stable Community Japan。
如需了解 Stability AI 模型、研究和活动的未来公告/信息，请关注 https://twitter.com/StabilityAI_JP。
若您有商业和合作咨询，请联系 partners-jp@stability.ai。关于商业和合作的咨询，请发送邮件至 sales-jp@stability.ai。