L

Llava Llama 3 8b V1 1 GGUF

由 MoMonir 开发
基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像转文本任务
下载量 138
发布时间 : 5/4/2024
模型介绍
内容详情
替代品

模型简介

这是一个视觉语言模型,能够理解图像内容并生成相关文本描述,适用于多模态交互场景。

模型特点

多模态理解
结合视觉编码器和语言模型,能够理解图像内容并生成相关文本
高效微调
使用LoRA技术对视觉编码器进行微调,提高模型性能
GGUF格式支持
转换为GGUF格式,兼容多种推理工具和平台

模型能力

图像内容理解
图像描述生成
多模态对话
视觉问答

使用案例

内容生成
自动图像标注
为图像生成描述性文本
可用于辅助视障人士或内容管理系统
教育
视觉问答系统
回答关于图像内容的问题
在MMBench测试中获得72.3分(EN)