L

Lava Phi

由 sagar007 开发
基于微软Phi-1.5架构的视觉语言模型,结合CLIP实现图像处理能力
下载量 17
发布时间 : 1/2/2025
模型介绍
内容详情
替代品

模型简介

这是一个多模态模型,能够同时处理图像和文本输入,生成相关的文本输出。

模型特点

多模态能力
结合文本和图像处理能力,能理解并生成与图像相关的文本描述
高效训练
采用QLoRA(量化低秩适配)训练方法,4位量化提高效率
混合精度训练
使用bfloat16进行混合精度训练,提高训练效率

模型能力

图像理解
图像描述生成
视觉问答
多模态对话

使用案例

图像理解
图像描述生成
为输入图像生成详细的文本描述
视觉问答
基于图像的问答
回答关于图像内容的自然语言问题