L

Llava Phi 3 Mini Gguf

由 xtuner 开发
LLaVA-Phi-3-mini 是基于 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微调的 LLaVA 模型,专注于图像转文本任务。
下载量 1,676
发布时间 : 4/25/2024
模型介绍
内容详情
替代品

模型简介

该模型结合了 Phi-3-mini-4k-instruct 的语言能力和 CLIP-ViT-Large-patch14-336 的视觉编码能力,用于图像理解和文本生成任务。

模型特点

高效微调
使用 XTuner 工具包进行高效微调,结合了 Phi-3-mini 和 CLIP-ViT 的优势。
多模态能力
能够同时处理图像和文本输入,生成相关的文本描述。
高性能
在多个基准测试中表现优异,如 MMBench、MMMU 和 SEED-IMG。

模型能力

图像理解
文本生成
多模态推理

使用案例

图像描述
自动图像标注
为图像生成详细的文本描述,适用于内容管理和检索。
在 SEED-IMG 测试中达到 70.0 的准确率。
视觉问答
图像内容问答
回答关于图像内容的复杂问题。
在 MMBench 测试中达到 69.2 的准确率。