I

Instructblip Flan T5 Xl 8bit Nf4

由 Mediocreatmybest 开发
InstructBLIP是基于BLIP-2的视觉指令调优模型,使用Flan-T5-xl作为语言模型,能够根据图像和文本指令生成描述。
下载量 22
发布时间 : 8/21/2023
模型介绍
内容详情
替代品

模型简介

InstructBLIP是一个视觉-语言模型,通过指令调优增强了BLIP-2的能力,能够根据图像和文本提示生成准确的描述或回答相关问题。

模型特点

视觉指令调优
通过指令调优增强了模型对视觉任务的理解和响应能力
8位量化支持
支持使用bitsandbytes进行8位和nf4量化,降低资源需求
Safetensors格式
模型权重以更安全的Safetensors格式提供

模型能力

图像描述生成
视觉问答
多模态理解
指令跟随

使用案例

图像理解
图像内容描述
对图像内容生成详细描述
能准确识别图像中的物体、场景和关系
视觉问答
回答关于图像内容的特定问题
能理解问题并基于图像内容提供准确回答
辅助功能
视觉辅助
为视障人士描述图像内容