库名称:transformers
许可证:apache-2.0
语言:
NABLA-VL 模型卡
这是由NABLAS开发的日语视觉语言模型(VLM),支持图像、多图像及视频输入。
模型详情
模型描述
该模型是由NABLAS开发的日语视觉语言模型(VLM),旨在基于视觉输入理解和生成文本。支持多种输入格式,包括单张图像、多张图像和视频,适用于多种多模态任务。
- 开发机构: NABLAS
- 资助方: GENIAC
- 共享方: NABLAS
- 模型类型: VLM(图像/多图像/视频)
- 支持语言(NLP): 日语
- 许可证: Apache License 2.0
- 微调基础模型: microsoft/phi-4, HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit
模型来源
- 代码仓库: https://github.com/nablas-inc/NABLA-VL
- 论文: 撰写中
快速开始
使用以下代码快速体验模型:
import requests
from PIL import Image
import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer
from nabla_vl.constants import CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
from nabla_vl.inference import run_model_with_stream
from nabla_vl.io import load_image
from nabla_vl.model import NablaVLForCausalLM
from nabla_vl.transforms import build_data_pipeline
MODEL = "nablasinc/NABLA-VL"
DEVICE = "cuda"
model = NablaVLForCausalLM.from_pretrained(MODEL, torch_dtype=torch.bfloat16)
model.to(DEVICE)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL, use_fast=False)
tokenizer.chat_template = CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
data_pipeline = build_data_pipeline(model.config, tokenizer)
instruction = "请描述这张图片!"
images = []
urls = [
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
]
for url in urls:
images.append(
np.array(
Image.open(
requests.get(
url,
stream=True,
).raw,
).convert("RGB"),
)[np.newaxis, :, :, :],
)
run_model_with_stream(
model,
tokenizer,
data_pipeline,
instruction,
images=images,
device=DEVICE,
)
示例
单图像输入

问:
请推断拍摄此图像的公司并描述图片内容
答:
该图像推测拍摄于名为Nablas的公司办公室或会议室。室内整齐排列着大量桌椅,适用于演示或会议场景。墙面显著展示"NABLAS"品牌标识,天花板装有现代风格照明灯具,整体营造出明亮开放的氛围,适合创意工作或团队协作。
多图像输入
问:
请说明这两张图像所代表行业的差异
答:
左图展示汽车工厂中橙色机器人作业场景,体现制造业自动化特征;右图呈现眼镜商品陈列,属于零售业范畴。两者分别代表了生产制造与终端销售的不同产业链环节。
视频输入
演示视频源自Pexels,由Magda Ehlers拍摄。
问:
请按时间顺序简要描述该视频内容!
答:
视频记录了狗狗追逐飞盘的全过程:起始画面显示狗狗奔跑追逐;随后展现腾空接盘的动作;接着衔回飞盘;最终以狗狗叼着飞盘奔跑的画面结束。
训练详情
详见论文(撰写中)。
开发团队(按字母顺序)
- Haoxiang Shi
- Maxime Alvarez
- Takuya Shintate
- Yudai Mine
- Zijie Jiang
致谢
本模型开发获得日本经济产业省(METI)与新能源产业技术综合开发机构(NEDO)发起的"GENIAC(生成式AI加速挑战)"项目支持,旨在增强日本本土生成式AI研发能力。