L

Llava 13b V0 4bit 128g

由 wojtab 开发
LLaVA是一个结合视觉与语言的多模态模型,基于LLaMA架构,支持图像理解和对话生成。
下载量 167
发布时间 : 4/21/2023
模型介绍
内容详情
替代品

模型简介

LLaVA-13b-delta-v0是基于LLaMA-13B的视觉语言模型,通过4位量化技术减少内存占用,适用于多模态对话和图像理解任务。

模型特点

4-bit量化
通过GPTQ技术实现4位量化,显著降低显存需求,提升推理效率。
多模态支持
结合视觉编码器和语言模型,实现图像与文本的联合理解。
开源集成
支持通过text-generation-webui的llava扩展运行,便于部署和测试。

模型能力

图像描述生成
多模态对话
视觉问答
上下文理解

使用案例

人机交互
图像对话助手
用户上传图片后,模型可回答关于图片内容的问题或生成描述。
实现自然的多轮交互式对话
内容生成
自动图像标注
为无标签图像生成详细文字描述。
提升图像检索和分类效率