许可证:apache-2.0
许可证链接:https://huggingface.co/Qwen/Qwen2.5-32B-Instruct/blob/main/LICENSE
语言:
- 日语
- 英语
标签:
- vila
- nvila
- 对话式
- 多模态
基础模型:
- Qwen/Qwen2.5-32B-Instruct
- google/siglip2-so400m-patch16-512
管道标签:图像-文本到文本
Heron-NVILA-Lite-33B
Heron-NVILA-Lite-33B 是一款基于 NVILA-Lite 架构、专为日语训练的视觉语言模型。
模型概览
环境配置
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git
使用示例
from transformers import AutoConfig, AutoModel
model_path = "turing-motors/Heron-NVILA-Lite-33B"
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")
print(model.tokenizer.chat_template)
response = model.generate_content(["こんにちは"])
print(response)
print("---" * 40)
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content([image, "画像を説明してください。"])
print(response)
print("---" * 40)
from PIL import Image
import requests
from transformers import GenerationConfig
generation_config = {
"max_new_tokens": 512,
"temperature": 0.5,
"do_sample": True,
}
generation_config = GenerationConfig(**generation_config)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content(
[image, "画像を説明してください。"],
generation_config=generation_config
)
print(response)
print("---" * 40)
from PIL import Image
import requests
url_list = [
"https://images.unsplash.com/photo-1694831404826-3400c48c188d?q=80&w=2070&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D",
"https://images.unsplash.com/photo-1693240876439-473af88b4ed7?q=80&w=1974&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D"
]
images = [
Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list
]
response = model.generate_content([
images[0],
"これは日本の画像です",
images[1],
"これはオーストリアの画像です",
"各画像の違いを説明して"])
print(response)
print("---" * 40)
训练摘要
阶段 |
训练内容 |
数据来源 |
样本量 |
阶段1 |
投影器训练 |
日语图文对, LLaVA预训练集 |
110万 |
阶段2 |
投影器+大语言模型训练 |
筛选后的MOMIJI (CC-MAIN-2024-42) |
300万 |
|
|
日语图文对(子集), 日语交错数据(子集), mmc4-core(子集), coyo-700m(子集), 日语维基百科, LLaVA日语预训练集, 楼梯字幕 |
2000万 |
阶段3 |
全模型微调 |
LLaVA指令集v1.5英文子集, LLaVA日语指令集, 日语照片对话, 日语视觉问答, 合成狗日语(子集), AI2D图表, 合成狗英文, 夏洛克数据集 |
110万 |
评估结果
使用 llm-jp-eval-mm 进行评估。除 Heron-NVILA-Lite 和 Sarashina2-Vision-14B 外,其他模型的分数截至2025年3月取自 llm-jp-eval-mm 排行榜 和 Asagi 官网。Heron-NVILA-Lite 和 Sarashina2-Vision-14B 使用 "gpt-4o-2024-05-13" 通过 llm-as-a-judge 评估。Sarashina2-Vision-14B 在 官方博客 中使用 "gpt-4o-2024-08-06" 评估,请注意因评估条件差异,其结果仅供参考。
风险与限制
本模型为实验性质,未针对伦理合规或法律标准进行充分校准。建议在敏感场景中谨慎使用。
许可证
致谢
本模型基于日本新能源产业技术综合开发机构(NEDO)资助项目JPNP20017的成果开发。
特别感谢以下开源项目: