Llama-3-EZO-VLM-1开源日语视觉语言模型 - 强化日语能力助力多元应用

首页

Llama 3 EZO VLM 1

由 AXCXEPT 开发

基于 Llama-3-8B-Instruct 的日语视觉语言模型，通过额外预训练和指令调优增强日语能力

图像生成文本

Safetensors

日语#日语视觉语言 #多模态增强 #指令调优优化

下载量 19

发布时间 : 8/3/2024

模型简介

该模型基于 Llama-3-8B-Instruct，通过多种调优技术提升其通用性能，在日语任务中表现出色，同时满足全球多样化需求。

模型特点

增强的日语能力

通过额外预训练和指令调优显著提升日语处理能力

多模态理解

结合视觉和语言能力，可处理图像和文本输入

全球适用性

设计上兼顾全球多样化需求，不局限于日语任务

模型能力

图像描述生成

视觉问答

多轮对话

跨模态理解

使用案例

智能助手

图像内容问答

回答关于图像内容的各类问题

在信号灯颜色识别等任务中表现优异

内容理解

图像描述生成

为图像生成详细的文字描述

相比基础模型提升了识别能力和描述能力

🚀 Llama-3-EZO-VLM-1

Llama-3-EZO-VLM-1 基于 Llama-3-8B-Instruct 模型，借助多种调优技术提升了通用性能。它以 SakanaAI/Llama-3-EvoVLM-JP-v2 为基础，通过额外的预训练和指令调优，增强了日语使用能力，在日语任务中表现出色，同时也能满足全球多样化的需求。

🚀 快速开始

安装依赖

pip install git+https://github.com/TIGER-AI-Lab/Mantis.git

使用示例

import requests
from PIL import Image

import torch
from mantis.models.conversation import Conversation, SeparatorStyle
from mantis.models.mllava import chat_mllava, LlavaForConditionalGeneration, MLlavaProcessor
from mantis.models.mllava.utils import conv_templates
from transformers import AutoTokenizer

# 1. Set the system prompt
conv_llama_3_elyza = Conversation(
    system="<|start_header_id|>system<|end_header_id|>\n\nあなたは誠実で優秀な日本人のアシスタントです。特に指示が無い場合は、常に日本語で回答してください。",
    roles=("user", "assistant"),
    messages=(),
    offset=0,
    sep_style=SeparatorStyle.LLAMA_3,
    sep="<|eot_id|>",
)
conv_templates["llama_3"] = conv_llama_3_elyza

# 2. Load model
device = "cuda" if torch.cuda.is_available() else "cpu"
model_id = "HODACHI/Llama-3-EZO-VLM-1"

processor = MLlavaProcessor.from_pretrained("TIGER-Lab/Mantis-8B-siglip-llama3")
processor.tokenizer.pad_token = processor.tokenizer.eos_token

model = LlavaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.float16, device_map=device).eval()

# 3. Prepare a generate config
generation_kwargs = {
    "max_new_tokens": 256,
    "num_beams": 1,
    "do_sample": False,
    "no_repeat_ngram_size": 3,
}

# 4. Generate
text = "<image>の信号は何色ですか？"
url_list = [
    "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
    "https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
   Image.open(requests.get(url_list[0], stream=True).raw).convert("RGB")
]

response, history = chat_mllava(text, images, model, processor, **generation_kwargs)

print(response)
# 信号の色は、青色です。

# 5. Multi-turn conversation
text = "では、<image>の信号は？"
images += [
   Image.open(requests.get(url_list[1], stream=True).raw).convert("RGB")
]
response, history = chat_mllava(text, images, model, processor, history=history, **generation_kwargs)

print(response)
# 赤色

✨ 主要特性

基于 SakanaAI/Llama-3-EvoVLM-JP-v2 进行增强，通过额外的预训练和指令调优，提升了日语使用能力。
采用多种调优技术，在不降低原始视觉性能的前提下，提高了文本处理的通用性能。
虽然专注于日语任务，但设计上能够满足全球多样化的需求。

📚 详细文档

模型详情

开发者：Axcxept co., ltd.
模型类型：自回归语言模型
支持语言：日语
许可证：META LLAMA 3 COMMUNITY LICENSE

模型数据

训练数据集

从日语维基百科和 FineWeb 中提取高质量数据来创建指令数据。这种创新的训练方法允许在各种语言和领域中提升性能，尽管专注于日语数据，但模型仍适用于全球使用。

日语维基百科：https://huggingface.co/datasets/legacy-datasets/wikipedia
FineWeb：https://huggingface.co/datasets/HuggingFaceFW/fineweb

数据预处理

使用普通指令调优方法让模型学习示例响应。这种方法增强了模型在各种语言和上下文中理解和生成高质量响应的能力。

实现信息

[预指令训练] https://huggingface.co/instruction-pretrain/instruction-synthesizer

基准测试结果

ElyzaTasks100

image/png 相比基础模型，性能大幅提升了 0.7 个百分点。

图像说明能力

image/png 在所有四个示例中，都实现了从基础模型到识别能力和说明能力的提升。

以下是 GPT4、SakanaAI 公司的基础模型、EZO 模型在同一图像和同一提示下的输出，由 GPT - 4o 评估的结果： image/png

DEMO

https://huggingface.co/spaces/HODACHI/Llama-3-EZO-VLM-1

免责声明

此模型仅用于研究和开发目的，应被视为实验性原型。它并非用于商业用途或部署在关键任务环境中。使用此模型由用户自行承担责任，其性能和结果不提供保证。Axcxept 有限公司对任何直接、间接、特殊、偶然、后果性的损害或因使用此模型而产生的任何损失，无论结果如何，均不承担任何责任。用户应充分理解使用此模型所涉及的风险，并自行决定是否使用。