开源LLaVA-Phi-3-mini-gguf模型 - 免费实现图像轻松转文本！

首页

Llava Phi 3 Mini Gguf

由 xtuner 开发

LLaVA-Phi-3-mini 是基于 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微调的 LLaVA 模型，专注于图像转文本任务。

图像生成文本 #多模态对话 #图像转文本 #高效微调

下载量 1,676

发布时间 : 4/25/2024

模型简介

该模型结合了 Phi-3-mini-4k-instruct 的语言能力和 CLIP-ViT-Large-patch14-336 的视觉编码能力，用于图像理解和文本生成任务。

模型特点

高效微调

使用 XTuner 工具包进行高效微调，结合了 Phi-3-mini 和 CLIP-ViT 的优势。

多模态能力

能够同时处理图像和文本输入，生成相关的文本描述。

高性能

在多个基准测试中表现优异，如 MMBench、MMMU 和 SEED-IMG。

模型能力

图像理解

文本生成

多模态推理

使用案例

图像描述

自动图像标注

为图像生成详细的文本描述，适用于内容管理和检索。

在 SEED-IMG 测试中达到 70.0 的准确率。

视觉问答

图像内容问答

回答关于图像内容的复杂问题。

在 MMBench 测试中达到 69.2 的准确率。

🚀 llava-phi-3-mini模型

llava-phi-3-mini是一个图像到文本的模型，它基于特定的数据集进行微调，能够在图像理解和文本生成方面发挥作用，为图像相关的自然语言处理任务提供支持。

🚀 快速开始

下载模型

# mmproj
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-int4.gguf

# (可选) ollama fp16 modelfile
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (可选) ollama int4 modelfile
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/OLLAMA_MODELFILE_INT4

使用`ollama`进行对话

⚠️ 重要提示

llava-phi-3-mini使用Phi-3-instruct对话模板。

# fp16
ollama create llava-phi3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-phi3-f16 "xx.png Describe this image"

# int4
ollama create llava-phi3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-phi3-int4 "xx.png Describe this image"

使用`./llava-cli`进行对话

构建 llama.cpp (文档)。
构建 ./llava-cli (文档)。

⚠️ 重要提示

llava-phi-3-mini使用Phi-3-instruct对话模板。

# fp16
./llava-cli -m ./llava-phi-3-mini-f16.gguf --mmproj ./llava-phi-3-mini-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096

# int4
./llava-cli -m ./llava-phi-3-mini-int4.gguf --mmproj ./llava-phi-3-mini-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096

复现实验

请参考文档。

✨ 主要特性

基于特定的预训练模型和视觉编码器进行微调，能够处理图像到文本的转换任务。
提供不同量化版本（如fp16和int4）的模型，以满足不同的计算资源需求。
支持使用ollama和./llava-cli进行对话交互。

📦 安装指南

按照快速开始部分的步骤下载模型，并根据需要进行构建和配置。

📚 详细文档

模型信息

llava-phi-3-mini是一个LLaVA模型，由 XTuner 基于 microsoft/Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336，使用 ShareGPT4V-PT 和 InternVL-SFT 进行微调得到。

注意：此模型为GGUF格式。

资源链接：

GitHub: xtuner
官方LLaVA格式模型: xtuner/llava-phi-3-mini
HuggingFace LLaVA格式模型: xtuner/llava-phi-3-mini-hf
XTuner LLaVA格式模型: xtuner/llava-phi-3-mini-xtuner

模型详情

属性	详情
模型类型	LLaVA-Phi-3-mini
视觉编码器	CLIP-L
投影器	MLP
分辨率	336
预训练策略	Frozen LLM, Frozen ViT
微调策略	Full LLM, Full ViT
预训练数据集	ShareGPT4V-PT (1246K)
微调数据集	InternVL-SFT (1268K)
预训练轮数	1
微调轮数	2

实验结果

模型	MMBench Test (EN)	MMMU Val	SEED-IMG	AI2D Test	ScienceQA Test	HallusionBench aAcc	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	37.1	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1
LLaVA-Phi-3-mini	69.2	41.4	70.0	69.3	73.7	49.8	87.3	61.5	57.8	1477/313	43.7

📄 许可证

本项目引用了以下文献：

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}