视觉指令调优
Llava MORE Llama 3 1 8B Finetuning
Apache-2.0
LLaVA-MORE是基于LLaVA架构的增强版本,集成了LLaMA 3.1作为语言模型,专注于图像到文本的任务。
图像生成文本
Transformers
L
aimagelab
215
9
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基于BLIP-2的视觉指令调优版本,结合视觉和语言处理能力,能够根据图像和文本指令生成响应。
图像生成文本
Transformers
英语
I
benferns
20
0
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基于BLIP-2的视觉指令调优模型,使用Flan-T5-xl作为语言模型,能够根据图像和文本指令生成描述。
图像生成文本
Transformers
英语
I
Mediocreatmybest
22
0
Instructblip Flan T5 Xxl 8bit Nf4
MIT
InstructBLIP是BLIP-2的视觉指令调优版本,结合了视觉和语言模型,能够根据图像和文本指令生成描述或回答问题。
图像生成文本
Transformers
英语
I
Mediocreatmybest
22
1
Instructblip Flan T5 Xl 8bit
MIT
InstructBLIP是BLIP-2的视觉指令调优版本,基于Flan-T5-xl语言模型,用于图像到文本生成任务。
图像生成文本
Transformers
英语
I
Mediocreatmybest
18
1
Instructblip Vicuna 13b
其他
InstructBLIP是BLIP-2的视觉指令调优版本,基于Vicuna-13b语言模型,用于视觉语言任务。
图像生成文本
Transformers
英语
I
Salesforce
1,251
42
Instructblip Flan T5 Xxl
MIT
InstructBLIP是BLIP-2经过视觉指令调优的版本,能够根据图像和文本指令生成描述或回答
图像生成文本
Transformers
英语
I
Salesforce
937
21
Instructblip Vicuna 7b
其他
InstructBLIP是基于BLIP-2的视觉指令调优版本,采用Vicuna-7B作为语言模型,专注于视觉语言任务。
图像生成文本
Transformers
英语
I
Salesforce
20.99k
91