语言:
- 日语
许可证: llama3
标签:
- 多模态
- 视觉语言
- mantis
- llava
- llama3
- siglip
管道标签: 图像转文本
Llama-3-EZO-VLM-1

基于 SakanaAI/Llama-3-EvoVLM-JP-v2,通过额外的预训练和指令调优增强了日语使用能力。
该模型基于 Llama-3-8B-Instruct,并受 Llama-3 使用条款约束。详细信息请参考官方 Llama-3 许可证页面。
此模型以 SakanaAI/Llama-3-EvoVLM-JP-v2 为基础,遵循 Llama-3 的使用条款。详情请参阅 Llama-3 的官方许可证页面。
演示
https://huggingface.co/spaces/HODACHI/Llama-3-EZO-VLM-1
模型详情
该模型基于 Llama-3-8B-Instruct,通过多种调优技术提升其通用性能。虽然它在日语任务中表现出色,但设计上旨在满足全球多样化需求。
以 SakanaAI/Llama-3-EvoVLM-JP-v2 为基础,采用多种调优方法,在不降低原有视觉性能的前提下,提升了文本处理能力。在日语任务中表现优异的同时,设计上兼顾全球多样化需求。
[基准测试结果]
ElyzaTasks100
相比基础模型,性能显著提升 0.7 个百分点
图像描述能力
在四个示例中均实现了识别能力和描述能力的提升。
以下是 GPT4、SakanaAI 的基础模型及 EZO 模型对同一图像和同一提示的输出,由 GPT-4o 评估的结果:

[使用方法]
pip install git+https://github.com/TIGER-AI-Lab/Mantis.git
import requests
from PIL import Image
import torch
from mantis.models.conversation import Conversation, SeparatorStyle
from mantis.models.mllava import chat_mllava, LlavaForConditionalGeneration, MLlavaProcessor
from mantis.models.mllava.utils import conv_templates
from transformers import AutoTokenizer
conv_llama_3_elyza = Conversation(
system="<|start_header_id|>system<|end_header_id|>\n\n你是一位诚实且优秀的日本助手。若无特别指示,请始终用日语回答。",
roles=("user", "assistant"),
messages=(),
offset=0,
sep_style=SeparatorStyle.LLAMA_3,
sep="<|eot_id|>",
)
conv_templates["llama_3"] = conv_llama_3_elyza
device = "cuda" if torch.cuda.is_available() else "cpu"
model_id = "HODACHI/Llama-3-EZO-VLM-1"
processor = MLlavaProcessor.from_pretrained("TIGER-Lab/Mantis-8B-siglip-llama3")
processor.tokenizer.pad_token = processor.tokenizer.eos_token
model = LlavaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.float16, device_map=device).eval()
generation_kwargs = {
"max_new_tokens": 256,
"num_beams": 1,
"do_sample": False,
"no_repeat_ngram_size": 3,
}
text = "<image>中的信号灯是什么颜色?"
url_list = [
"https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
"https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
Image.open(requests.get(url_list[0], stream=True).raw).convert("RGB")
]
response, history = chat_mllava(text, images, model, processor, **generation_kwargs)
print(response)
text = "那么,<image>中的信号灯呢?"
images += [
Image.open(requests.get(url_list[1], stream=True).raw).convert("RGB")
]
response, history = chat_mllava(text, images, model, processor, history=history, **generation_kwargs)
print(response)
模型详情
[模型数据]
训练数据集
我们从日语维基百科和 FineWeb 中提取高质量数据创建指令数据。尽管专注于日语数据,但创新的训练方法使其适用于全球多种语言和领域。
从日语维基数据和 FineWeb 中精选优质数据,构建指令数据集。虽然模型针对日语优化,但其方法适用于全球各类使用场景。
https://huggingface.co/datasets/legacy-datasets/wikipedia
https://huggingface.co/datasets/HuggingFaceFW/fineweb
数据预处理
采用纯指令调优方法训练模型学习标准回答。该方法增强了模型在不同语言和语境下理解和生成高质量回答的能力。
通过纯指令调优技术,让模型学习模范回答。这一技术显著提升了模型跨语言、跨场景的高质量响应能力。
实现信息
[预指令训练]
https://huggingface.co/instruction-pretrain/instruction-synthesizer
[免责声明]
本模型仅供研究开发目的提供,应视为实验性原型。不适用于商业用途或关键任务环境。使用者需自行承担使用风险,模型性能及结果不作保证。Axcxept 株式会社对因使用本模型导致的任何直接、间接、特殊、偶然或结果性损害概不负责。使用者应充分理解使用风险并自行判断。
[注意事项]
虽然本模型利用了 SakanaAI 的模型,但本公司与 SakanaAI 无直接关联。请勿就本模型或本空间向 SakanaAI 咨询。
[硬件配置]
A100 × 8(运行4小时)
[致谢]
特别感谢基础模型开发者 Meta 公司、定制化开发的 SakanaAI 团队及相关开发者,以及提供自动评估方法的众多贡献者。
[关于我们]
