llm-jp-3-vila-14b开源视觉语言模型 - 免费使用实现图像理解与日英文本生成

首页

Llm Jp 3 Vila 14b

由 llm-jp 开发

由日本国立情报学研究所开发的大型视觉语言模型，支持日语和英语，具备强大的图像理解和文本生成能力。

图像生成文本

Safetensors

日语#日语视觉问答 #多模态大模型 #SigLIP视觉编码

下载量 106

发布时间 : 10/26/2024

模型简介

这是一个结合视觉编码器和大型语言模型的视觉语言模型，能够理解图像内容并生成相关文本描述或回答问题。

模型特点

多语言支持

同时支持日语和英语的视觉语言理解与生成

三阶段训练

采用分阶段训练策略，先调整投影层，再联合训练投影层和LLM，最后进行微调

高性能视觉编码器

使用siglip-so400m-patch14-384作为视觉编码器，提供强大的图像理解能力

评估领先

在多个日语视觉语言基准测试中表现优于同类模型

模型能力

图像内容理解

图像描述生成

视觉问答

多模态对话

使用案例

内容理解与生成

图像描述

为图像生成详细的文字描述

在Heron基准测试中获得57.2%的LLM评分

视觉问答

回答关于图像内容的自然语言问题

在JA-VG-VQA500测试中获得3.62/5.0的LLM评分

多模态应用

图文对话

基于图像内容进行自然语言对话

在JA-VLM野外基准测试中获得3.69/5.0的LLM评分

🚀 LLM - jp - 3 VILA 14B

本仓库提供了一个由日本国立情报学研究所的大语言模型研发中心开发的大型视觉语言模型（VLM）。该模型能够处理图像和文本信息，为图像理解和文本生成等任务提供支持。

🚀 快速开始

环境要求

Python 版本：3.10.12

安装步骤

克隆仓库并安装依赖库。

```bash git clone git@github.com:llm-jp/llm-jp-VILA.git cd llm-jp-VILA ``` ```bash python3 -m venv venv source venv/bin/activate ``` ```bash pip install --upgrade pip wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.4.2/flash_attn-2.4.2+cu118torch2.0cxx11abiFALSE-cp310-cp310-linux_x86_64.whl pip install flash_attn-2.4.2+cu118torch2.0cxx11abiFALSE-cp310-cp310-linux_x86_64.whl pip install -e . pip install -e ".[train]" ``` ```bash pip install git+https://github.com/huggingface/transformers@v4.36.2 cp -rv ./llava/train/transformers_replace/* ./venv/lib/python3.10/site-packages/transformers/ ```
运行 Python 脚本。你可以将 image_path 和 query 替换为你自己的内容。
```python import argparse from io import BytesIO
import requests import torch from PIL import Image

from llava.constants import IMAGE_TOKEN_INDEX from llava.conversation import conv_templates from llava.mm_utils import (get_model_name_from_path, process_images, tokenizer_image_token) from llava.model.builder import load_pretrained_model from llava.utils import disable_torch_init

def load_image(image_file): if image_file.startswith("http") or image_file.startswith("https"): response = requests.get(image_file) image = Image.open(BytesIO(response.content)).convert("RGB") else: image = Image.open(image_file).convert("RGB") return image

def load_images(image_files): out = [] for image_file in image_files: image = load_image(image_file) out.append(image) return out

disable_torch_init()

model_checkpoint_path = "llm-jp/llm-jp-3-vila-14b" model_name = get_model_name_from_path(model_checkpoint_path) tokenizer, model, image_processor, context_len = load_pretrained_model(model_checkpoint_path, model_name)

image_path = "path/to/image" image_files = [ image_path ] images = load_images(image_files)

query = "\nこの画像について説明してください。"

conv_mode = "llmjp_v3" conv = conv_templates[conv_mode].copy() conv.append_message(conv.roles[0], query) conv.append_message(conv.roles[1], None) prompt = conv.get_prompt()

images_tensor = process_images(images, image_processor, model.config).to(model.device, dtype=torch.float16) input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt").unsqueeze(0).cuda()

with torch.inference_mode(): output_ids = model.generate( input_ids, images=[ images_tensor, ], do_sample=False, num_beams=1, max_new_tokens=256, use_cache=True, )

outputs = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0] print(outputs)
```
</details>
```

✨ 主要特性

模型架构

属性	详情
模型类型	大型视觉语言模型（VLM）
视觉编码器	siglip - so400m - patch14 - 384，参数数量 428M
投影器	2 层 MLP，参数数量 32M
大语言模型	llm - jp - 3 - 13b - instruct，参数数量 13B

训练数据

模型分三个阶段进行训练：

阶段 0

用于调整投影器参数的数据集：

语言	数据集	图像数量
日语	Japanese image text pairs	558K
英语	LLaVA - Pretrain	558K

阶段 1

用于调整投影器和大语言模型参数的数据集：

语言	数据集	图像数量
日语	Japanese image text pairs	6M
日语	Japanese interleaved data	6M
英语	coyo（子集）	6M
英语	mmc4 - core（子集）	6M

阶段 2

用于调整投影器和大语言模型参数的数据集：

语言	数据集	图像数量
日语	llava - instruct - ja	156K
日语	japanese - photos - conv	12K
日语	ja - vg - vqa	99K
日语	synthdog - ja（子集）	102K
英语	LLaVA	158K
英语	VQAv2	53K
英语	GQA	46K
英语	OCRVQA	80K
英语	TextVQA	22K

评估结果

使用 Heron Bench、JA - VLM - Bench - In - the - Wild 和 JA - VG - VQA500 对模型进行评估，使用 gpt - 4o - 2024 - 05 - 13 作为大语言模型评判器。

Heron Bench

模型	大语言模型评判得分（%）
Japanese InstructBLIP Alpha	14.0
Japanese Stable VLM	24.2
Llama - 3 - EvoVLM - JP - v2	39.3
LLaVA - CALM2 - SigLIP	43.3
llm - jp - 3 - vila - 14b（本模型）	57.2
GPT - 4o	87.6

JA - VLM - Bench - In - the - Wild

模型	ROUGE - L	大语言模型评判得分（/5.0）
Japanese InstructBLIP Alpha	20.8	2.42
Japanese Stable VLM	23.3	2.47
Llama - 3 - EvoVLM - JP - v2	41.4	2.92
LLaVA - CALM2 - SigLIP	47.2	3.15
llm - jp - 3 - vila - 14b（本模型）	52.3	3.69
GPT - 4o	37.6	3.85

JA - VG - VQA500

模型	ROUGE - L	大语言模型评判得分（/5.0）
Japanese InstructBLIP Alpha	--	--
Japanese Stable VLM	--	--
Llama - 3 - EvoVLM - JP - v2	23.5	2.96
LLaVA - CALM2 - SigLIP	17.4	3.21
llm - jp - 3 - vila - 14b（本模型）	16.2	3.62
GPT - 4o	12.1	3.58