llava-llama-3-8b-v1_1-GGUF开源模型 - 轻松实现图像转文本任务

首页

Llava Llama 3 8b V1 1 GGUF

由 MoMonir 开发

基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型，支持图像转文本任务

图像生成文本 #多模态对话 #图像理解 #低资源部署

下载量 138

发布时间 : 5/4/2024

模型简介

这是一个视觉语言模型，能够理解图像内容并生成相关文本描述，适用于多模态交互场景。

模型特点

多模态理解

结合视觉编码器和语言模型，能够理解图像内容并生成相关文本

高效微调

使用LoRA技术对视觉编码器进行微调，提高模型性能

GGUF格式支持

转换为GGUF格式，兼容多种推理工具和平台

模型能力

图像内容理解

图像描述生成

多模态对话

视觉问答

使用案例

内容生成

自动图像标注

为图像生成描述性文本

可用于辅助视障人士或内容管理系统

教育

视觉问答系统

回答关于图像内容的问题

在MMBench测试中获得72.3分(EN)

🚀 MoMonir/llava-llama-3-8b-v1_1-GGUF

本项目将模型转换为了GGUF格式，原模型为xtuner/llava-llama-3-8b-v1_1。如需了解该模型的更多详情，请参考原始模型卡片。

数据集

Lin-Chen/ShareGPT4V

任务类型

图像转文本

✨ 主要特性

GGUF是llama.cpp团队于2023年8月21日推出的一种新格式，它取代了不再受llama.cpp支持的GGML格式。以下是已知支持GGUF的客户端和库的不完全列表：

llama.cpp：GGUF的源项目，提供命令行界面和服务器选项。
text-generation-webui：最广泛使用的Web UI，具有许多功能和强大的扩展，支持GPU加速。
KoboldCpp：功能齐全的Web UI，支持所有平台和GPU架构的GPU加速，尤其适用于故事创作。
GPT4All：一个免费开源的本地运行GUI，支持Windows、Linux和macOS，并提供全GPU加速。
LM Studio：适用于Windows和macOS（Silicon）的易用且强大的本地GUI，支持GPU加速。截至2023年11月27日，Linux版本处于测试阶段。
LoLLMS Web UI：一个很棒的Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天GUI，适用于Windows和macOS（Silicon和Intel），支持GPU加速。
llama-cpp-python：一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
candle：一个注重性能的Rust机器学习框架，包括GPU支持，且易于使用。
ctransformers：一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。截至2023年11月27日，ctransformers已有很长时间未更新，不支持许多最新模型。

📦 安装指南

下载模型

# mmproj
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-int4.gguf

# (可选) ollama fp16 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (可选) ollama int4 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_INT4

💻 使用示例

使用`ollama`进行聊天

# fp16
ollama create llava-llama3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-llama3-f16 "xx.png Describe this image"

# int4
ollama create llava-llama3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-llama3-int4 "xx.png Describe this image"

使用`llama.cpp`进行聊天

构建 llama.cpp（文档）。
构建 ./llava-cli（文档）。

注意：llava-llama-3-8b-v1_1使用Llama-3-instruct聊天模板。

# fp16
./llava-cli -m ./llava-llama-3-8b-v1_1-f16.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

# int4
./llava-cli -m ./llava-llama-3-8b-v1_1-int4.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

复现实验

请参考文档。

📚 详细文档

模型信息

llava-llama-3-8b-v1_1是一个基于LLaVA的模型，由XTuner在meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336的基础上，使用ShareGPT4V-PT和InternVL-SFT进行微调得到。

注意：此模型为GGUF格式。

资源链接

GitHub：xtuner
HuggingFace LLaVA格式模型：xtuner/llava-llama-3-8b-v1_1-transformers
官方LLaVA格式模型：xtuner/llava-llama-3-8b-v1_1-hf
XTuner LLaVA格式模型：xtuner/llava-llama-3-8b-v1_1

模型详情

模型	视觉编码器	投影器	分辨率	预训练策略	微调策略	预训练数据集	微调数据集
LLaVA-v1.5-7B	CLIP-L	MLP	336	冻结LLM，冻结ViT	全量LLM，冻结ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B	CLIP-L	MLP	336	冻结LLM，冻结ViT	全量LLM，LoRA ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	冻结LLM，冻结ViT	全量LLM，LoRA ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)

实验结果

模型	MMBench测试（英文）	MMBench测试（中文）	CCBench开发集	MMMU验证集	SEED-IMG	AI2D测试	ScienceQA测试	HallusionBench准确率	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	59.0	27.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	61.6	30.4	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	66.4	31.6	36.8	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1

🔧 技术细节

本项目将模型转换为了GGUF格式，GGUF是llama.cpp团队推出的新格式，取代了GGML格式。在微调过程中，使用了特定的数据集和策略，具体信息可参考上述详细文档部分。

📄 许可证

引用信息

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}