library_name: transformers
license: apache-2.0
datasets:
- deepvk/LLaVA-Instruct-ru
- Lin-Chen/ShareGPT4V
- deepvk/GQA-ru
language:
- ru
- en
base_model: IlyaGusev/saiga_llama3_8b
pipeline_tag: image-text-to-text
LLaVA-Saiga-8b
LLaVA-Saiga-8b 是基于 IlyaGusev/saiga_llama3_8b
模型开发的视觉-语言模型(VLM),采用原始 LLaVA 框架训练。该模型主要适配俄语任务,但仍具备英语处理能力。
使用方法
通过 transformers
API 可轻松调用模型:
import requests
from PIL import Image
from transformers import AutoProcessor, AutoTokenizer, LlavaForConditionalGeneration
model_name = "deepvk/llava-saiga-8b"
model = LlavaForConditionalGeneration.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
img = Image.open(requests.get(url, stream=True).raw)
messages = [
{"role": "user", "content": "<image>\n用几个词描述这张图片。"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(images=[img], text=text, return_tensors="pt")
generate_ids = model.generate(**inputs, max_new_tokens=30)
answer = tokenizer.decode(generate_ids[0, inputs.input_ids.shape[1]:], skip_special_tokens=True)
print(answer)
使用 <image>
标记指向文本中的图像,并遵循对话模板进行多轮交互。该模型支持无图像对话或多图像对话,但此功能未经充分测试。
该模型格式可直接兼容主流框架,例如可通过 lmms-eval 测试模型性能(详见结果章节)。
训练过程
我们遵循原始 LLaVA 流程,复用 haotian-liu/LLaVA
框架进行训练:
- 预训练阶段:使用
ShareGPT4V
数据训练适配器
- 指令微调阶段:联合训练语言模型和适配器,数据来源包括:
整个训练在8块A100 80GB显卡上耗时3-4天完成。
性能评估
使用 lmms-eval
框架评估:
accelerate launch -m lmms_eval --model llava_hf --model_args pretrained="deepvk/llava-saiga-8b" \
--tasks gqa-ru,mmbench_ru_dev,gqa,mmbench_en_dev --batch_size 1 \
--log_samples --log_samples_suffix llava-saiga-8b --output_path ./logs/
注:MMBench评估未使用OpenAI API量化生成文本,因此得分规则与GQA基准的精确匹配类似。
引用文献
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}
@misc{deepvk2024llava-saiga-8b,
title={LLaVA-Saiga-8b},
author={Belopolskih, Daniil and Spirin, Egor},
url={https://huggingface.co/deepvk/llava-saiga-8b},
publisher={Hugging Face}
year={2024},
}