许可证:apache-2.0
语言:
- 日语
基础模型:
- llm-jp/llm-jp-3-7.2b-instruct3
任务类型:图像文本到文本
库名称:transformers
标签:
- llava
模型详情
模型描述
本仓库提供了Asagi-8B,一个大规模的日语视觉与语言模型(VLM)。
Asagi-8B基于广泛的日语数据集训练,整合了多样化的数据来源。
训练数据的大部分是通过模型合成的,例如日语大语言模型(CALM3-22B-Chat)和英语视觉与语言模型(Phi3.5-vision-instruct)。
重要的是,我们没有使用许可证条款限制输出用途的LLM(如GPT-4)来合成训练数据。
注:与Asagi系列的其他模型不同,Asagi-8B跳过了第一阶段的训练。
使用方法
环境要求
transformers==4.45.1
accelerate==0.34.2
torch==2.4.0
torchvision==0.19.0
使用示例
import requests
import torch
import transformers
from PIL import Image
from transformers import AutoModel, AutoProcessor, GenerationConfig
transformers.set_seed(42)
model_path = "MIL-UT/Asagi-8B"
processor = AutoProcessor.from_pretrained(model_path)
model = AutoModel.from_pretrained(
model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
generation_config = GenerationConfig(
do_sample=True,
num_beams=5,
max_new_tokens=256,
temperature=0.7,
repetition_penalty=1.5
)
prompt = ("以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n\n"
"### 指示:\n<image>\nこの画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。\n\n### 応答:\n")
sample_image_url = "https://raw.githubusercontent.com/uehara-mech/uehara-mech.github.io/refs/heads/master/images/shibuya.jpg"
image = Image.open(requests.get(sample_image_url, stream=True).raw)
inputs = processor(
text=prompt, images=image, return_tensors="pt"
)
inputs_text = processor.tokenizer(prompt, return_tensors="pt")
inputs['input_ids'] = inputs_text['input_ids']
inputs['attention_mask'] = inputs_text['attention_mask']
for k, v in inputs.items():
if v.dtype == torch.float32:
inputs[k] = v.to(model.dtype)
inputs = {k: inputs[k].to(model.device) for k in inputs if k != "token_type_ids"}
generate_ids = model.generate(
**inputs,
generation_config=generation_config
)
generated_text = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
if "<image>" in prompt:
prompt = prompt.replace("<image>", " ")
generated_text = generated_text.replace(prompt, "")
print(f"生成文本: {generated_text}")
示例
提示 |
输出 |
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真はどこで撮影されたものか教えてください。また、画像の内容についても詳しく説明してください。 |
この写真は東京・銀座の夜景を撮影したものです。銀座は東京を代表する繁華街の一つで、多くの高層ビルが立ち並び、ネオンサインや街灯の光で輝いています。特に目を引くのは、中央にそびえ立つ「銀座クリスタルビル」で、その特徴的な時計塔が印象的です。ビル群の間を行き交う車や人々の姿は、都会の活気を感じさせます。 |
注:这张照片实际拍摄于涩谷,而非银座。
更多示例
点击展开
提示 |
输出 |
この画像を見て、次の指示に詳細かつ具体的に答えてください。この写真の内容について詳しく教えてください。 |
この写真は、東京のお台場地区にあるレインボーブリッジを撮影したものです。レインボーブリッジは、東京都港区と江東区を結ぶ重要な交通路であり、その特徴的な白い塔とケーブルが印象的です。背景には高層ビル群が立ち並び、東京の都市景観が広がっています。空は部分的に雲がかかっており、朝か夕方の時間帯を示唆しています。 |
提示 |
输出 |
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真について評価してください。 |
この写真は、東京スカイツリーの壮大な景色を捉えており、赤と白の構造が空に向かってそびえ立っています。低い角度から撮影されているため、タワーがさらに威圧的に見えます。背景には白い雲が点在する澄んだ青い空が広がり、前景には緑豊かな木々と街灯が配置され、自然の要素が都市の風景に溶け込んでいます。全体として、人工物と自然が見事に調和した美しい写真です。 |
提示 |
输出 |
この画像を見て、次の質問に詳細かつ具体的に答えてください。この写真の神社について、細かいところまで詳しく説明してください。 |
この写真に写っている神社は、伝統的な日本の建築様式を反映しています。朱色の鳥居と白い壁のコントラストが美しく、神聖な雰囲気を醸し出しています。鳥居は神社の入り口に位置し、神域と俗界を分ける役割を果たしています。神社の屋根は瓦葺きで、緑色の瓦が使われており、これは日本の伝統的な建築様式の一つです。また、神社の周りには近代的な建物が建ち並んでおり、伝統と現代が共存する日本の風景を象徴しています。 |
提示 |
输出 |
この画像を見て、次の指示に詳細かつ具体的に答えてください。これは日本庭園の中でも、どのような形式に分類される庭園ですか?また、その理由は何ですか? |
この庭園は「池泉回遊式庭園」と呼ばれる形式の庭園です。池泉回遊式庭園は、池泉や水景物のある庭園を指し、水生庭園や水のある庭園とも呼ばれます。この形式の庭園は、自然の美しさを最大限に引き出すために設計されており、池や水景物が庭園の中心的な要素となっています。 |
提示 |
输出 |
この画像を見て、次の質問に詳細に答えてください。この画像の場所を舞台とした小説のあらすじを書いてください。 |
この画像の場所を舞台とした小説の題名は『石段の秘密』。物語は、都会の喧騒を逃れた主人公が、古い石造りの階段を登るシーンから始まります。階段の周りには緑豊かな植物が生い茂り、歴史を感じさせる建物が立ち並んでいます。主人公は階段を登りながら、過去と未来を行き来する不思議な体験をし、最終的に階段の下に隠された秘密を明らかにします。 |
训练详情
训练数据
注:Asagi-8B跳过了第一阶段的训练。
数据集 |
预处理 |
阶段1 |
阶段2 |
规模 |
ROIS (自建) |
合成 |
✓ |
✓ |
8.4M |
日语图文对 |
合成 |
✓ |
✓ |
4.4M |
维基百科 |
合成 |
✓ |
✓ |
2.5M |
Open Images |
翻译 |
✓ |
✓ |
680K |
DCI |
翻译 |
✓ |
✓ |
7K |
CommonCatalog CC-BY |
翻译 |
✓ |
✓ |
3.5M |
LLaVA-Pretrain-JA |
|
✓ |
✓ |
550K |
STAIR Captions |
|
✓ |
✓ |
410K |
Flickr-JP |
|
✓ |
✓ |
160K |
YJ Captions |
|
✓ |
✓ |
130K |
Japanese Pascal |
|
✓ |
✓ |
5K |
ArtBench |
合成 |
|
✓ |
100K |
GQA |
翻译 |
|
✓ |
1.9M |
VQA v2 |
翻译 |
|
✓ |
880K |
A-OKVQA |
翻译 |
|
✓ |
34K |
OK-VQA |
翻译 |
|
✓ |
18K |
Japanese Visual Genome |
翻译 |
|
✓ |
1.6M |
PangeaInstruct |
|
|
✓ |
93K |
注:ROIS(自建)是为本项目专门从网络爬取的新数据集,包含图像和原始文本对,用于合成训练数据。
评估
我们使用Heron-Bench、JA-VLM-Bench-in-the-Wild和JA-VG-VQA-500评估模型,并通过eval-mm库完成评估。
标注"†"的模型未使用GPT生成的数据训练。
粗体数字表示所有模型中的最佳性能,下划线数字表示未使用GPT生成数据的模型中的最佳性能。
模型 |
语言模型规模 |
Heron-Bench (LLM (%)) |
JA-VLM-Bench-In-the-Wild (ROUGE-L) |
JA-VLM-Bench-In-the-Wild (LLM (/5.0)) |
JA-VG-VQA-500 (ROUGE-L) |
JA-VG-VQA-500 (LLM (/5.0)) |
Japanese InstructBLIP Alpha† |
7B |
14.0 |
20.8 |
2.42 |
- |
- |
Japanese Stable VLM† |
7B |
24.2 |
23.3 |
2.47 |
- |
- |
LLaVA-CALM2-SigLIP† |
7B |
43.3 |
47.2 |
3.15 |
17.4 |
3.21 |
Llama-3-EvoVLM-JP-v2 |
8B |
39.3 |
41.4 |
2.92 |
23.5 |
2.96 |
VILA-jp |
13B |
57.2 |
52.3 |
3.69 |
16.2 |
3.62 |
Asagi-2B† |
1.8B |
44.7 |
48.8 |
3.26 |
53.7 |
3.69 |
Asagi-4B† |
3.7B |
49.3 |
49.6 |
3.38 |
55.6 |
3.78 |
Asagi-8B† |
7.2B |
54.7 |
49.4 |
3.45 |
56.43 |
3.84 |
Asagi-14B† |
13B |
55.8 |
50.8 |
3.44 |
56.8 |
3.84 |
GPT-4o |
- |
87.6 |
37.6 |
3.85 |
12.1 |
3.58 |
风险与限制
当前发布的模型处于研发早期阶段,尚未经过充分调优以确保输出符合人类意图和安全考量。
模型卡作者
植原康平