T

Tinyllava OpenELM 450M SigLIP 0.89B

由 jiajunlong 开发
TinyLLaVA 是一个小规模的多模态模型系列,该模型由 OpenELM-450M 和 SigLIP-0.89B 组成,专注于高效的视觉-语言任务处理。
下载量 102
发布时间 : 4/29/2024

模型简介

TinyLLaVA 是一个轻量级的多模态模型,结合了语言模型和视觉模型,能够处理图像和文本的联合任务。

模型特点

轻量高效
模型参数规模小,适合资源受限的环境,同时性能优于部分更大规模的模型。
多模态支持
能够同时处理图像和文本输入,完成视觉问答等任务。
模块化设计
支持多种语言模型和视觉模型的组合,灵活性高。

模型能力

视觉问答
图像描述生成
多模态理解
文本生成

使用案例

教育
视觉问答
回答关于图像内容的问题,适用于教育场景中的互动学习。
在VQAv2数据集上达到71.74的准确率。
内容生成
图像描述生成
为图像生成详细的文本描述,适用于无障碍服务或内容标注。
AIbase
智启未来,您的人工智能解决方案智库
简体中文