language:
- ja
license:
- cc-by-nc-4.0
tags:
- 苍鹭模型
- 视觉
- 图像描述生成
- 视觉问答
pipeline_tag: 图像转文本
inference: false
苍鹭GIT日语StableLM基础版7B模型
模型详情
苍鹭GIT日语StableLM基础版7B是一款能够就输入图像进行对话的视觉语言模型。
该模型使用苍鹭模型库训练完成,具体细节请参考相关代码。
使用方法
按照安装指南进行操作。
import torch
from heron.models.git_llm.git_japanese_stablelm_alpha import GitJapaneseStableLMAlphaForCausalLM
from transformers import AutoProcessor, LlamaTokenizer
device_id = 0
device = f"cuda:{device_id}"
MODEL_NAME = "turing-motors/heron-chat-git-ja-stablelm-base-7b-v1"
model = GitJapaneseStableLMAlphaForCausalLM.from_pretrained(
MODEL_NAME, torch_dtype=torch.float16, ignore_mismatched_sizes=True
)
model.eval()
model.to(device)
processor = AutoProcessor.from_pretrained(MODEL_NAME)
tokenizer = LlamaTokenizer.from_pretrained(
"novelai/nerdstash-tokenizer-v1",
padding_side="right",
additional_special_tokens=["▁▁"],
)
processor.tokenizer = tokenizer
import requests
from PIL import Image
url = "https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw)
text = f"##human: 这张图片的有趣之处是什么?\n##gpt: "
inputs = processor(
text=text,
images=image,
return_tensors="pt",
truncation=True,
)
inputs = {k: v.to(device) for k, v in inputs.items()}
with torch.no_grad():
out = model.generate(**inputs, max_length=256, do_sample=False, temperature=0., no_repeat_ngram_size=2)
print(processor.tokenizer.batch_decode(out))
模型详情
训练过程
- GIT适配器使用LLaVA-Pratrain-JA数据集进行训练
- 语言模型和适配器使用LLaVA-Instruct-620K-JA-v2数据集进行全参数微调
训练数据集
- LLaVA-Pratrain-JA
- LLaVA-Instruct-620K-JA-v2
使用范围与限制
预期用途
本模型适用于聊天类应用场景和研究用途。
使用限制
模型可能产生不准确或错误信息,其准确性无法保证。目前仍处于研发阶段。
引用方式
@misc{inoue2024heronbench,
title={Heron-Bench: 日语视觉语言模型评估基准},
author={井上裕一 and 佐佐木健人 and 越智悠马 and 藤井一树 and 棚桥孝太郎 and 山口悠},
year={2024},
eprint={2404.07824},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
license: cc-by-nc-4.0