视觉指令微调
Mistral Small 3.1 24B Instruct 2503 GGUF
Apache-2.0
这是一个基于Mistral-Small-3.1-24B-Instruct-2503的视觉增强版本,支持图像文本生成文本任务。
图像生成文本
M
ggml-org
670
3
General Reasoner 14B Preview
Apache-2.0
基于Qwen2.5-14B基础模型和VisualWebInstruct-Verified数据集训练的多模态推理模型,支持英语任务处理。
大型语言模型
Transformers
英语
G
TIGER-Lab
33
3
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一个多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
图像生成文本
英语
Q
samgreen
25.59k
6
Llama 3.2 Vision Instruct Bpmncoder
Apache-2.0
基于Unsloth优化的Llama 3.2 11B视觉指令微调模型,采用4位量化技术,训练速度提升2倍
文本生成图像
Transformers
英语
L
utkarshkingh
40
1
Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct 是一个多模态视觉语言模型,支持图像和文本的交互式生成任务。
图像生成文本
英语
Q
samgreen
2,073
1
Llama 3.2 11B Vision Medical
Apache-2.0
基于unsloth/Llama-3.2-11B-Vision-Instruct微调的模型,使用Unsloth和Huggingface的TRL库进行训练,速度提升了2倍。
文本生成图像
Transformers
英语
L
Varu96
25
1
Llama 3.2 11B Vision Invoices Mini
Apache-2.0
基于unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit微调的多模态大语言模型,支持视觉指令理解任务,使用Unsloth优化训练速度提升2倍。
文本生成图像
Transformers
英语
L
atulSethi
46
1
Llama 3.2 11B Vision Radiology Mini
Apache-2.0
基于Unsloth优化的视觉指令微调模型,支持多模态任务处理
文本生成图像
Transformers
英语
L
mervinpraison
39
2
Vsft Llava 1.5 7b Hf Trl
基于LLaVA-1.5-7B模型通过视觉监督微调(VSFT)训练的多模态视觉语言模型,支持图像理解和对话生成
图像生成文本
Transformers
英语
V
HuggingFaceH4
65
14
Llava V1.5 Mlp2x 336px Pretrain Vicuna 13b V1.5
LLaVA 是一个开源多模态聊天机器人,通过对 LLaMA/Vicuna 在 GPT 生成的多模态指令跟随数据上进行微调训练而成。
文本生成图像
Transformers
L
liuhaotian
66
2
Llava Pretrain Vicuna 7b V1.3
LLaVA 是一个开源多模态聊天机器人,基于 LLaMA/Vicuna 在 GPT 生成的多模态指令跟随数据上进行微调训练而成。
文本生成图像
Transformers
L
liuhaotian
54
1
Chinese LLaVA Cllama2
Openrail
开源可商用的中英文双语视觉-语言助手,支持中英文视觉-文本多模态对话的开源商用对话模型。
文本生成图像
Transformers
支持多种语言
C
LinkSoul
51
19
Instructblip Flan T5 Xl
MIT
InstructBLIP是BLIP-2经过视觉指令微调的版本,能够执行视觉语言任务,如图像描述生成和视觉问答。
图像生成文本
Transformers
英语
I
Salesforce
16.89k
29