NABLA - VL开源日语视觉语言模型 - 支持图、多图、视频输入，适用多模态任务

首页

NABLA VL

由 nablasinc 开发

由NABLAS开发的日语视觉语言模型（VLM），支持图像、多图像及视频输入，适用于多种多模态任务。

图像生成文本

Transformers

日语开源协议:Apache-2.0 #日语视觉语言理解 #多模态输入支持 #视频内容解析

下载量 1,673

发布时间 : 3/31/2025

模型简介

该模型是基于视觉输入理解和生成文本的日语视觉语言模型，支持单张图像、多张图像和视频输入，适用于多种多模态任务。

模型特点

多模态输入支持

支持单张图像、多张图像和视频输入，适用于多种视觉语言任务。

日语优化

专门针对日语进行优化，能够更好地理解和生成日语文本。

高性能视觉语言模型

基于先进的视觉和语言模型架构，提供高质量的视觉语言理解和生成能力。

模型能力

图像描述生成

多图像对比分析

视频内容理解

日语文本生成

使用案例

办公场景

会议室场景分析

分析会议室图像，生成描述性文本。

准确识别会议室布局和品牌标识。

制造业与零售业

行业差异分析

对比制造业和零售业图像，分析行业差异。

准确区分生产制造与终端销售的不同环节。

视频内容分析

视频内容描述

按时间顺序描述视频内容。

准确记录狗狗追逐飞盘的全过程。

🚀 NABLA - VL 视觉语言模型

NABLA - VL 是由 NABLAS 开发的日语视觉语言模型（VLM），它支持图像、多图像和视频输入，能基于视觉输入理解和生成文本，可广泛应用于各种多模态任务。

🚀 快速开始

使用以下代码开始使用该模型：

import requests
from PIL import Image

import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer

from nabla_vl.constants import CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
from nabla_vl.inference import run_model_with_stream
from nabla_vl.io import load_image
from nabla_vl.model import NablaVLForCausalLM
from nabla_vl.transforms import build_data_pipeline

MODEL = "nablasinc/NABLA-VL"
DEVICE = "cuda"


model = NablaVLForCausalLM.from_pretrained(MODEL, torch_dtype=torch.bfloat16)
model.to(DEVICE)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL, use_fast=False)
tokenizer.chat_template = CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
data_pipeline = build_data_pipeline(model.config, tokenizer)
instruction = "この画像について教えてください！"
images = []
urls = [
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
]
for url in urls:
    images.append(
        np.array(
            Image.open(
                requests.get(
                    url,
                    stream=True,
                ).raw,
            ).convert("RGB"),
        )[np.newaxis, :, :, :],
    )
run_model_with_stream(
    model,
    tokenizer,
    data_pipeline,
    instruction,
    images=images,
    device=DEVICE,
)

✨ 主要特性

支持单图像、多图像和视频等多种输入格式，适用于多样化的多模态任务。
专为日语设计，能更好地理解和生成日语文本。

📚 详细文档

模型详情

模型描述

本模型是由 NABLAS 开发的日语视觉语言模型（VLM），旨在基于视觉输入理解和生成文本。它支持广泛的输入格式，包括单图像、多图像和视频，可在各种多模态任务中实现多功能应用。

开发者：NABLAS
资助方：GENIAC
共享方：NABLAS
模型类型：VLM（图像/多图像/视频）
自然语言处理支持语言：日语
许可证：Apache 许可证 2.0
微调基础模型：microsoft/phi - 4, HuggingFaceM4/siglip - so400m - 14 - 980 - flash - attn2 - navit

模型来源

仓库地址：https://github.com/nablas-inc/NABLA-VL
论文：待发布

使用示例

基础用法

单图像输入

单图像

问题

この画像が撮影された会社を推論した上で画像について説明してください

答案

この画像は、ナブラス（Nablas）という会社のオフィスまたは会議室の内部を撮影したものであると推測されます。会議室には、多くの椅子とデスクが整然と並べられており、プレゼンテーションや会議に使用されることが想定されます。壁には「NABLAS」というロゴが大きく表示されており、会社のブランドを強調しています。また、天井にはモダンなデザインの照明が取り付けられており、全体的に明るく開放的な雰囲気を醸し出しています。このような環境は、クリエイティブな作業やチームミーティングに適していると考えられます。

多图像输入

问题

これらの画像で表される業種の違いを説明してください

答案

これらの画像は、異なる業種の特徴を示しています。最初の画像では、工場内でオレンジ色のロボットが作業を行っている様子が見られます。このロボットは、製造業や自動化の分野で使用されることが多く、効率的な生産ラインを支える役割を果たしています。一方、2番目の画像は眼鏡のディスプレイを示しており、小売業やファッション業界に関連しています。ここでは、さまざまなスタイルの眼鏡が並べられており、顧客が選ぶことができる商品が展示されています。このように、最初の画像は製造業の自動化を象徴し、2番目の画像は小売業の商品展示を示しており、それぞれの業種が異なる目的と機能を持っていることがわかります。

视频输入

本演示使用的视频来源于 Pexels，由 Magda Ehlers 创作。

问题

この動画について時系列順にざっくり説明してください！

答案

このビデオは、犬がフリスビーを追いかける様子を捉えています。最初のフレームでは、犬がフリスビーを追いかけて走っています。次のフレームでは、犬がフリスビーをキャッチしようとしています。その後、犬はフリスビーを口にくわえて戻ってきます。最後のフレームでは、犬がフリスビーを持って走っている様子が見られます。