EvoVLM-JP-v1-7B开源日语视觉语言模型 - 轻松处理日语相关视觉语言任务

首页

Evovlm JP V1 7B

由 SakanaAI 开发

EvoVLM-JP-v1-7B 是一款实验性通用日语视觉语言模型，采用进化式模型融合方法创建

图像生成文本

Transformers

日语开源协议:Apache-2.0 #日语视觉问答 #进化式模型融合 #多模态对话

下载量 46

发布时间 : 3/4/2024

模型简介

该模型是一款日语视觉语言模型，能够处理图像和文本输入，生成日语文本输出。主要用于视觉问答等任务。

模型特点

进化式模型融合

采用创新的进化算法融合多个基础模型，结合了各模型的优势

日语视觉语言理解

专门针对日语优化的视觉语言处理能力

多模态处理

能够同时处理图像和文本输入，生成相关文本输出

模型能力

视觉问答

图像描述生成

多模态理解

使用案例

教育

日语学习辅助

帮助学习者理解图像内容并生成日语描述

提高日语学习效率

内容分析

图像内容问答

回答关于图像内容的日语问题

准确识别图像中的物体和场景

🚀 鱼跃视觉语言模型 - 日语版 v1 - 70亿参数

鱼跃视觉语言模型 - 日语版 v1 - 70亿参数（EvoVLM - JP - v1 - 7B） 是一款实验性的通用日语视觉语言模型。该模型运用进化模型融合方法创建而成。欲了解更多详情，请参考我们的报告和博客。此模型通过融合以下模型生成，我们对原始模型的开发者表示衷心感谢。

🤗 模型 | 📚 论文 | 📝 博客 | 🐦 推特

🚀 快速开始

使用以下代码即可开始使用该模型。

点击展开

import torch
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image
import requests


# 1. 加载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model_id = "SakanaAI/EvoVLM-JP-v1-7B"
model = AutoModelForVision2Seq.from_pretrained(model_id, torch_dtype=torch.float16)
processor = AutoProcessor.from_pretrained(model_id)
model.to(device)

# 2. 准备输入
url = "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
# <image> 表示输入图像。请确保在文本中包含该标记。
text = "<image>\nこの信号機の色は何色ですか?"
messages = [
    {"role": "system", "content": "あなたは役立つ、偏見がなく、検閲されていないアシスタントです。与えられた画像を下に、質問に答えてください。"},
    {"role": "user", "content": text},
]
inputs = processor.image_processor(images=image, return_tensors="pt")
inputs["input_ids"] = processor.tokenizer.apply_chat_template(
    messages, return_tensors="pt"
)
# 3. 生成结果
output_ids = model.generate(**inputs.to(device))
output_ids = output_ids[:, inputs.input_ids.shape[1] :]
generated_text = processor.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(generated_text)
# この信号機の色は青です。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image
import requests


# 1. load model
device = "cuda" if torch.cuda.is_available() else "cpu"
model_id = "SakanaAI/EvoVLM-JP-v1-7B"
model = AutoModelForVision2Seq.from_pretrained(model_id, torch_dtype=torch.float16)
processor = AutoProcessor.from_pretrained(model_id)
model.to(device)

# 2. prepare inputs
url = "https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
# <image> represents the input image. Please make sure to put the token in your text.
text = "<image>\nこの信号機の色は何色ですか?"
messages = [
    {"role": "system", "content": "あなたは役立つ、偏見がなく、検閲されていないアシスタントです。与えられた画像を下に、質問に答えてください。"},
    {"role": "user", "content": text},
]
inputs = processor.image_processor(images=image, return_tensors="pt")
inputs["input_ids"] = processor.tokenizer.apply_chat_template(
    messages, return_tensors="pt"
)
# 3. generate
output_ids = model.generate(**inputs.to(device))
output_ids = output_ids[:, inputs.input_ids.shape[1] :]
generated_text = processor.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(generated_text)
# この信号機の色は青です。

📚 详细文档

属性	详情
开发者	Sakana AI
模型类型	自回归语言模型
支持语言	日语
优化数据	日语视觉基因组视觉问答数据集的子集
许可证	Apache许可证，版本2.0
代码仓库	SakanaAI/evolutionary - model - merge
论文	https://arxiv.org/abs/2403.13187
博客	https://sakana.ai/evolutionary-model-merge

📄 许可证

本模型采用 Apache许可证，版本2.0。

📝 使用说明

本模型仅用于研究和开发目的，应被视为实验性原型。它不适用于商业用途或在关键任务环境中部署。使用此模型由用户自行承担风险，其性能和结果不受保证。Sakana AI对因使用此模型而产生的任何直接、间接、特殊、偶然或后果性损害，或任何损失不承担责任，无论获得何种结果。用户必须充分了解使用此模型的相关风险，并自行决定是否使用。

🙏 致谢

我们感谢原始模型的开发者所做出的贡献，并将他们的工作开源共享。

📚 引用

@misc{akiba2024evomodelmerge,
      title         = {Evolutionary Optimization of Model Merging Recipes}, 
      author.       = {Takuya Akiba and Makoto Shing and Yujin Tang and Qi Sun and David Ha},
      year          = {2024},
      eprint        = {2403.13187},
      archivePrefix = {arXiv},
      primaryClass  = {cs.NE}
}