heron-chat-blip-ja-stablelm-base-7b-v1开源模型 - 支持日语，可就图像展开对话

首页

Heron Chat Blip Ja Stablelm Base 7b V1

由 turing-motors 开发

这是一个能够就输入图像进行对话的视觉语言模型，支持日语交流。

图像生成文本

Transformers

日语#日语视觉问答 #图像对话生成 #多模态日语处理

下载量 40

发布时间 : 2/20/2024

模型简介

该模型基于BLIP2架构，结合日语StableLM语言模型，能够理解和生成关于输入图像的日语描述和对话。

模型特点

日语视觉对话

专门针对日语优化的视觉语言模型，能够用日语进行图像相关的对话

BLIP2架构

采用BLIP2视觉语言预训练框架，结合强大的视觉编码器和语言模型

StableLM基础

基于StabilityAI的日语StableLM基础模型，提供稳定的语言生成能力

模型能力

图像描述生成

视觉问答

日语对话

图像理解

使用案例

聊天应用

图像对话机器人

用户上传图片后，可以用日语与机器人讨论图片内容

能够理解图片内容并生成相关的日语回答

辅助工具

视觉辅助

为视障人士提供图像内容的日语描述

帮助视障用户理解周围环境

🚀 Heron BLIP 日语 StableLM Base 7B v1

Heron BLIP 日语 StableLM Base 7B 是一款视觉语言模型，能够针对输入的图像进行对话交流，为图像理解和交互提供了强大的支持。

🚀 快速开始

按照安装指南进行操作。

✨ 主要特性

能够针对输入的图像进行对话交流，为图像理解和交互提供支持。
基于 BLIP2 适配器类型，结合日语 StableLM Base Alpha 语言模型。
使用 LLaVA-Instruct-150K-JA 数据集进行全量微调。

📦 安装指南

请参考安装指南完成安装。

💻 使用示例

基础用法

import torch
from heron.models.video_blip import VideoBlipForConditionalGeneration, VideoBlipProcessor
from transformers import LlamaTokenizer

device_id = 0
device = f"cuda:{device_id}"

MODEL_NAME = "turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1"
    
model = VideoBlipForConditionalGeneration.from_pretrained(
    MODEL_NAME, torch_dtype=torch.float16, ignore_mismatched_sizes=True
)

model = model.half()
model.eval()
model.to(device)

# prepare a processor
processor = VideoBlipProcessor.from_pretrained("Salesforce/blip2-opt-2.7b")
tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])
processor.tokenizer = tokenizer

import requests
from PIL import Image

# prepare inputs
url = "https://www.barnorama.com/wp-content/uploads/2016/12/03-Confusing-Pictures.jpg"
image = Image.open(requests.get(url, stream=True).raw)

text = f"##human: この画像の面白い点は何ですか?\n##gpt: "

# do preprocessing
inputs = processor(
    text=text,
    images=image,
    return_tensors="pt",
    truncation=True,
)

inputs = {k: v.to(device) for k, v in inputs.items()}
inputs["pixel_values"] = inputs["pixel_values"].to(device, torch.float16)

# set eos token
eos_token_id_list = [
    processor.tokenizer.pad_token_id,
    processor.tokenizer.eos_token_id,
    int(tokenizer.convert_tokens_to_ids("##"))
]

# do inference
with torch.no_grad():
    out = model.generate(**inputs, max_length=256, do_sample=False, temperature=0., eos_token_id=eos_token_id_list, no_repeat_ngram_size=2)

# print result
print(processor.tokenizer.batch_decode(out))

📚 详细文档

模型详情

属性	详情
开发者	Turing Inc.
适配器类型	BLIP2
语言模型	日语 StableLM Base Alpha
语言	日语

训练

本模型使用 LLaVA-Instruct-150K-JA 数据集进行全量微调。

训练数据集

LLaVA-Instruct-150K-JA

使用与限制

预期用途

本模型旨在用于类似聊天的应用程序以及研究目的。

限制

该模型可能会产生不准确或错误的信息，其准确性无法保证，目前仍处于研发阶段。

如何引用

@misc{BlipJapaneseStableLM, 
    url    = {[https://huggingface.co/turing-motors/heron-chat-blip-ja-stablelm-base-7b-v0](https://huggingface.co/turing-motors/heron-chat-blip-ja-stablelm-base-7b-v0)}, 
    title  = {Heron BLIP Japanese StableLM Base 7B}, 
    author = {Kotaro Tanahashi, Yuichi Inoue, and Yu Yamaguchi}
}

引用文献

@misc{JapaneseInstructBLIPAlpha, 
    url    = {[https://huggingface.co/stabilityai/japanese-instructblip-alpha](https://huggingface.co/stabilityai/japanese-instructblip-alpha)}, 
    title  = {Japanese InstructBLIP Alpha}, 
    author = {Shing, Makoto and Akiba, Takuya}
}