N

Nanollava

由 qnguyen3 开发
nanoLLaVA是一款1B参数的视觉语言模型,专为边缘设备设计,具有高效运行的特点。
下载量 2,851
发布时间 : 4/4/2024
模型介绍
内容详情
替代品

模型简介

nanoLLaVA是一个小型但功能强大的视觉语言模型,基于Qwen1.5-0.5B和SigLIP视觉编码器构建,适用于多模态任务。

模型特点

高效边缘计算
专为在边缘设备上高效运行而设计,参数规模小但性能强大。
多模态能力
结合视觉和语言理解能力,可处理图像和文本的联合任务。
改进版本
nanoLLaVA-1.5版本已发布,性能大幅提升。

模型能力

视觉问答
图像描述生成
多模态理解
文本生成
图像分析

使用案例

智能助手
图像内容描述
根据用户提供的图像生成详细描述
能准确识别图像中的内容和上下文关系
教育
科学问题解答
回答与图像相关的科学问题
在ScienceQA数据集上达到58.97%准确率