L

Llava Phi 3 Mini Hf

由 xtuner 开发
基于Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像转文本任务
下载量 2,322
发布时间 : 4/25/2024
模型介绍
内容详情
替代品

模型简介

LLaVA-Phi-3-mini是一个视觉语言模型,能够理解图像内容并生成相关文本描述,适用于多模态交互场景。

模型特点

高效微调
使用XTuner工具进行高效微调,结合Phi-3-mini和CLIP-ViT的优势
多模态能力
能够同时处理视觉和语言信息,实现图像到文本的转换
高性能
在多个基准测试中表现优异,如MMBench、MMMU等

模型能力

图像理解
文本生成
多模态交互
视觉问答

使用案例

教育
科学图解分析
分析科学图表并解释内容
如准确识别火山结构图中的熔岩部分
内容理解
图像描述生成
为图像生成详细的文本描述
如准确描述两只猫在沙发上睡觉的场景