license: apache-2.0
license_link: https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct/blob/main/LICENSE
language:
- 日语
- 英语
tags:
- 视觉语言模型
- 轻量级架构
- 对话式AI
- 多模态
base_model:
- Qwen/Qwen2.5-0.5B-Instruct
- Efficient-Large-Model/paligemma-siglip-so400m-patch14-448
pipeline_tag: 图像文本生成文本
Heron-NVILA-Lite-1B
Heron-NVILA-Lite-1B是基于NVILA-Lite架构训练的日语视觉语言模型。
模型概览
环境配置
pip install transformers==4.45.0 accelerate opencv-python torchvision einops pillow
pip install git+https://github.com/bfshi/scaling_on_scales.git
使用示例
from transformers import AutoConfig, AutoModel
model_path = "turing-motors/Heron-NVILA-Lite-1B"
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_config(config, trust_remote_code=True, device_map="auto")
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, device_map="auto")
print(model.tokenizer.chat_template)
response = model.generate_content(["你好"])
print(response)
print("---" * 40)
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
response = model.generate_content([image, "请描述这张图片。"])
print(response)
print("---" * 40)
from transformers import GenerationConfig
generation_config = {
"max_new_tokens": 512,
"temperature": 0.5,
"do_sample": True,
}
response = model.generate_content(
[image, "请描述这张图片。"],
generation_config=GenerationConfig(**generation_config)
)
print("---" * 40)
url_list = [
"https://images.unsplash.com/photo-1694831404826-3400c48c188d",
"https://images.unsplash.com/photo-1693240876439-473af88b4ed7"
]
images = [Image.open(requests.get(url, stream=True).raw).convert("RGB") for url in url_list]
response = model.generate_content([
images[0],
"这是日本风景",
images[1],
"这是奥地利风景",
"请比较两幅图的差异"])
print("---" * 40)
训练流程
性能评估
使用llm-jp-eval-mm基准测试,关键指标对比:
模型名称 |
参数量 |
综合得分(%) |
开放场景评分(5分制) |
视觉问答评分(5分制) |
Heron-NVILA-Lite-1B |
5亿 |
45.9 |
2.92 |
3.16 |
GPT-4o(参照) |
- |
87.6 |
3.85 |
3.58 |
风险声明
本模型为实验性成果,未完全通过伦理合规性校准,敏感场景使用需谨慎。
许可协议
致谢
本项目由日本新能源产业技术综合开发机构(NEDO)资助(JPNP20017),并使用了以下开源资源: