llava-llama-3-8b-v1_1-gguf开源多模态模型 - 支持图像理解与文本生成

首页

Llava Llama 3 8b V1 1 Gguf

由 xtuner 开发

基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336模型微调的多模态模型，支持图像理解和文本生成

图像生成文本 #多模态对话 #高分辨率图像理解 #Llama-3微调

下载量 9,484

发布时间 : 4/26/2024

模型简介

这是一个视觉语言模型，能够理解图像内容并生成相关文本描述，适用于图像转文本任务

模型特点

强大的视觉理解能力

结合CLIP-ViT-Large视觉编码器，能准确理解图像内容

Llama-3语言模型

基于Meta最新Llama-3-8B-Instruct模型，提供高质量文本生成

多分辨率支持

支持336像素分辨率的图像输入

高效微调

使用XTuner工具包进行高效微调，优化模型性能

模型能力

图像内容理解

图像描述生成

多模态问答

视觉推理

使用案例

图像理解

图像描述生成

为输入的图像生成详细文字描述

生成自然流畅的图像描述文本

视觉问答

回答关于图像内容的各类问题

准确回答图像相关问题

教育

科学图解

解释科学图表和示意图

帮助学生理解复杂科学概念

🚀 llava-llama-3-8b-v1_1模型介绍

llava-llama-3-8b-v1_1 是一个图像到文本的模型，它基于特定的预训练模型和数据集进行微调，在多个评估基准上展现出了优秀的性能。该模型在图像描述等任务中具有较高的准确性和实用性。

🚀 快速开始

下载模型

# mmproj
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-int4.gguf

# (可选) ollama fp16 模型文件
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (可选) ollama int4 模型文件
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_INT4

使用 `ollama` 进行对话

# fp16
ollama create llava-llama3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-llama3-f16 "xx.png Describe this image"

# int4
ollama create llava-llama3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-llama3-int4 "xx.png Describe this image"

使用 `llama.cpp` 进行对话

编译 llama.cpp (文档)。
编译 ./llava-cli (文档)。

注意：llava-llama-3-8b-v1_1 使用 Llama-3-instruct 对话模板。

# fp16
./llava-cli -m ./llava-llama-3-8b-v1_1-f16.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

# int4
./llava-cli -m ./llava-llama-3-8b-v1_1-int4.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

复现实验

请参考文档。

✨ 主要特性

多数据集微调：基于 ShareGPT4V-PT 和 InternVL-SFT 数据集进行微调，提升模型性能。
多格式支持：提供 GGUF 格式模型，同时有不同精度（fp16、int4）的模型可供选择。
多工具适配：支持使用 ollama 和 llama.cpp 进行对话。

📚 详细文档

模型信息

llava-llama-3-8b-v1_1 是一个基于 meta-llama/Meta-Llama-3-8B-Instruct 和 CLIP-ViT-Large-patch14-336 进行微调的 LLaVA 模型，由 XTuner 完成微调。

注意：该模型为 GGUF 格式。

资源链接

GitHub: xtuner
HuggingFace LLaVA 格式模型: xtuner/llava-llama-3-8b-v1_1-transformers
官方 LLaVA 格式模型: xtuner/llava-llama-3-8b-v1_1-hf
XTuner LLaVA 格式模型: xtuner/llava-llama-3-8b-v1_1

模型细节

模型	视觉编码器	投影器	分辨率	预训练策略	微调策略	预训练数据集	微调数据集
LLaVA-v1.5-7B	CLIP-L	MLP	336	冻结大语言模型，冻结视觉模型	全量训练大语言模型，冻结视觉模型	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B	CLIP-L	MLP	336	冻结大语言模型，冻结视觉模型	全量训练大语言模型，LoRA 微调视觉模型	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	冻结大语言模型，冻结视觉模型	全量训练大语言模型，LoRA 微调视觉模型	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)

实验结果

模型	MMBench 测试 (英文)	MMBench 测试 (中文)	CCBench 开发集	MMMU 验证集	SEED-IMG	AI2D 测试	ScienceQA 测试	HallusionBench 准确率	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	59.0	27.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	61.6	30.4	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	66.4	31.6	36.8	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1

📄 许可证

文档中未提及相关许可证信息。

📖 引用

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}