llava-calm2-siglip开源视觉语言模型 - 免费部署，用日英双语解答图像问题

首页

Llava Calm2 Siglip

由 cyberagent 开发

llava-calm2-siglip 是一个实验性的视觉语言模型，能够用日语和英语回答关于图像的问题。

图像生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #日语视觉问答 #多模态对话 #图像理解

下载量 3,930

发布时间 : 6/12/2024

模型简介

该模型是基于LLaVA 1.5的视觉语言指令跟随模型，采用calm2-7b-chat作为语言模型，siglip-so400m-patch14-384作为图像编码器。主要用于图像理解和多语言对话任务。

模型特点

多语言支持

支持日语和英语两种语言的图像理解和对话

高性能视觉理解

在LLaVA野外基准测试和Heron基准测试中表现优异

两阶段训练

第一阶段学习MLP投影层，第二阶段联合微调语言模型和投影层

模型能力

图像描述生成

多语言视觉问答

图像内容理解

跨模态对话

使用案例

图像理解

图像内容描述

对图像内容进行详细描述，如识别物体、场景等

能准确描述图像中的物体、场景和细节

视觉问答

基于图像的问答

回答用户关于图像内容的问题

能准确回答关于图像内容的各类问题

🚀 llava-calm2-siglip

llava-calm2-siglip 是一款实验性的视觉语言模型，能够用日语回答关于图像的问题，为图像理解和交互提供了新的解决方案。

🚀 快速开始

llava-calm2-siglip 是一个可以用日语回答有关图像问题的实验性视觉语言模型。以下是使用该模型的基本步骤。

基础用法

from PIL import Image
import requests
from transformers import AutoProcessor, LlavaForConditionalGeneration
import torch

model = LlavaForConditionalGeneration.from_pretrained(
    "cyberagent/llava-calm2-siglip",
    torch_dtype=torch.bfloat16,
).to(0)

processor = AutoProcessor.from_pretrained("cyberagent/llava-calm2-siglip")

prompt = """USER: <image>
この画像を説明してください。
ASSISTANT: """

url = "https://unsplash.com/photos/LipkIP4fXbM/download?force=true&w=640"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

inputs = processor(text=prompt, images=image, return_tensors="pt").to(0, torch.bfloat16)
generate_ids = model.generate(**inputs,
                              max_length=500,
                              do_sample=True,
                              temperature=0.2,
                    )
output = processor.tokenizer.decode(generate_ids[0][:-1], clean_up_tokenization_spaces=False)

print(output)

# USER: <image>
# この画像を説明してください。
# ASSISTANT: 画像には、木製のテーブルの上に置かれた、たこ焼き器で焼かれた3つのたこ焼きが映っています。たこ焼きは、小麦粉をベースにした生地を丸く焼き、中にタコや天かす、紅ショウガなどの具材を入れたものです。たこ焼きは、ソース、マヨネーズ、青海苔、かつおぶしをかけて食べることが多いです。

💻 使用示例

聊天模板

USER: <image>
{user_message1}
ASSISTANT: {assistant_message1}<|endoftext|>
USER: {user_message2}
ASSISTANT: {assistant_message2}<|endoftext|>
USER: {user_message3}
ASSISTANT: {assistant_message3}<|endoftext|>

📚 详细文档

模型详情

属性	详情
模型规模	7B
模型类型	基于Transformer的视觉语言模型
支持语言	日语、英语
开发者	CyberAgent, Inc.
许可证	Apache-2.0

训练信息

此模型是一个基于 LLaVA 1.5 的视觉语言指令跟随模型。它使用 cyberagent/calm2-7b-chat 作为语言模型，google/siglip-so400m-patch14-384 作为图像编码器。在训练过程中，第一阶段是从零开始学习MLP投影，第二阶段则对语言模型和MLP投影进行额外训练。

视觉指令微调数据集

在视觉指令微调的第二阶段，我们在一个关于图像对话的数据集上进行训练。这些对话数据是使用我们内部的大规模日语语言模型，基于 MS-COCO 和 VisualGenome 中的图像、标题、对象标签和边界框生成的。有关不使用图像生成视觉指令微调对话数据集的方法，请参考 LLaVA 1.5。

评估结果

LLaVA Bench In-the-wild

模型	详情	对话	复杂情况	平均
llava-calm2-siglip	51.2	55.9	65.51	57.54
Japanese Stable VLM	26.02	24.84	29.18	26.68
SakanaAI EvoVLM-JP	49.59	65.49	54.22	56.43
Heron BLIP v1 (620k)	45.45	32.90	56.89	45.08
Heron GIT	40.98	39.87	54.59	45.15

LLaVA Bench In-the-wild 已翻译成日语。

Heron-Bench

模型	详情	对话	复杂情况	平均
llava-calm2-siglip	53.42	50.13	52.72	52.09
Japanese Stable VLM	25.15	51.23	37.84	38.07
SakanaAI EvoVLM-JP	50.31	44.42	40.47	45.07
Heron BLIP v1 (620k)	49.09	41.51	45.72	45.44
Heron GIT	42.77	54.20	43.53	46.83

Heron-Bench

使用与限制

预期用途

此模型旨在供开源社区用于视觉语言应用和学术研究。

限制和偏差

这个通用日语VLM模型在针对每个任务使用相关数据进行特定调优时才能达到最佳性能。虽然技术上可行，但商业使用时需谨慎，并且强烈建议在生产系统中部署时实施过滤不适当内容的机制。不建议将此模型用于可能对个人或群体造成潜在伤害或困扰的应用程序。CyberAgent明确声明对使用此模型可能导致的直接、间接、特殊、偶然或后果性损害以及任何损失不承担任何责任，无论结果如何。用户在使用该模型之前必须充分了解这些限制。