Sarashina2-vision-8B开源视觉语言模型 - 基于多模型的日本AI助力图像理解应用

首页

Sarashina2 Vision 8b

由 sbintuitions 开发

Sarashina2-Vision-8B是由SB Intuitions训练的日本大型视觉语言模型，基于Sarashina2-7B和Qwen2-VL-7B的图像编码器，在多个基准测试中表现优异。

图像生成文本

Transformers

支持多种语言开源协议:MIT #日语视觉问答 #多模态推理 #建筑识别

下载量 1,233

发布时间 : 3/9/2025

模型简介

该模型是一个多模态视觉语言模型，能够理解和生成与图像相关的文本描述，适用于日语和英语环境。

模型特点

多模态支持

结合视觉和语言处理能力，能够理解和生成与图像相关的文本描述。

高性能

在多个基准测试中取得最高分数，表现优于同类模型。

日语优化

特别针对日语环境进行了优化，适用于日语视觉语言任务。

模型能力

图像理解

文本生成

多模态推理

视觉问答

使用案例

视觉问答

识别著名建筑

识别图像中的著名建筑并描述其位置。

能够准确识别并描述图像中的东京塔等著名建筑。

图像描述

描述图像内容

生成图像的详细文本描述。

能够生成准确且详细的图像描述。

🚀 佐良娜2视觉8B模型

佐良娜2视觉8B（Sarashina2-Vision-8B） 是由 SB直觉公司训练的日本大型视觉语言模型。该模型基于佐良娜2-7B（Sarashina2-7B）和通义千问2-VL-7B（Qwen2-VL-7B）的图像编码器构建。截至2025年3月7日，在4个基准测试中，它相较于其他日本视觉语言模型取得了最高分数。

🚀 快速开始

📦 安装指南

安装所需依赖：

pip install -U transformers==4.47.0 torch torchvision pillow protobuf sentencepiece accelerate

💻 使用示例

基础用法

以下脚本可加载模型并进行推理：

import requests
from PIL import Image
from transformers import AutoModelForCausalLM, AutoProcessor

# Define model path
model_path = "sbintuitions/sarashina2-vision-8b"

# Load model and processor
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="cuda",
    torch_dtype="auto",
    trust_remote_code=True,
)

message = [{"role": "user", "content": "この写真に写っているもので、最も有名と考えられる建築物は何でどこに写っていますか？"}]
text_prompt = processor.apply_chat_template(message, add_generation_prompt=True)
"""text_prompt: <s><|prefix|><|file|><|suffix|>A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.

### Human: この写真に写っているもので、最も有名と考えられる建築物は何でどこに写っていますか？
### Assistant:"""

sample_image_url = "https://huggingface.co/sbintuitions/sarashina2-vision-8b/resolve/main/sample.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw).convert("RGB")
inputs = processor(
    text=[text_prompt],
    images=[image],
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")
stopping_criteria = processor.get_stopping_criteria(["\n###"])

# Inference: Generation of the output
output_ids = model.generate(
    **inputs,
    max_new_tokens=128,
    temperature=0.0,
    do_sample=False,
    stopping_criteria=stopping_criteria,
)
generated_ids = [
    output_ids[len(input_ids) :] for input_ids, output_ids in zip(inputs.input_ids, output_ids)
]
output_text = processor.batch_decode(
    generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)
print(output_text[0])
"""この写真に写っているもので、最も有名と考えられる建築物は東京タワーです。東京タワーは、東京のランドマークであり、この写真では、高層ビル群の向こう側に写っています。"""

示例展示

示例图片

提示	输出
この写真に写っているもので、最も有名と考えられる建築物は何でどこに写っていますか？	この写真に写っているもので、最も有名と考えられる建築物は東京タワーです。東京タワーは、東京のランドマークであり、この写真では、高層ビル群の向こう側に写っています。
真ん中に映っている赤と白の物は何ですか？	真ん中に映っている赤と白のものはクレーンです。

🔧 技术细节

训练过程

佐良娜2视觉（Sarashina2-Vision） 是通过以下三个阶段的学习过程创建的：

通过字幕数据集调整投影器中的参数。
通过字幕数据集调整视觉编码器和投影器中的参数。
通过视觉指令数据集调整投影器和大语言模型（LLM）中的参数。

评估结果

模型	模型大小	JMMMU^*1	Heron-Bench^*2	JDocQA
heron-chat-git-ja-stablelm-base-7b-v1	7B	0.294	0.461	0.069
llava-calm2-siglip	7B	0.07	0.521	0.084
Llama-3-EvoVLM-JP-v2	8B	0.389	0.509	0.103
Asagi-14B	14B	0.302	0.433	0.06
llm-jp-3-vila-14b	14B	0.23	0.665	0.176
EZO-InternVL2-26B	26B	0.389	0.609	0.196
佐良娜2视觉8B（Sarashina2-Vision-8B）	8B	0.393	0.648	0.229
佐良娜2视觉14B（Sarashina2-Vision-14B）	14B	0.433	0.644	0.245