多模态指令微调
Llama 3.2 11B Vision Radiology Mini
这是一个基于Llama架构的多模态模型,支持视觉和文本指令,经过4位量化优化。
图像生成文本
L
p4rzvl
69
0
R1 VL 2B
Apache-2.0
R1-VL-2B 是通过逐步组相对策略优化(StepGRPO)训练得到的视觉语言推理模型,基于Qwen2-VL-2B-Instruct进行优化。
图像生成文本
Transformers
R
jingyiZ00
272
1
Phi 4 Multimodal Instruct Ko Asr
基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型,在zeroth-korean和fleurs数据集上表现优异。
文本生成音频
Transformers
韩语
P
junnei
354
3
Smolvlm2 2.2B Instruct 4bit
Apache-2.0
SmolVLM2-2.2B-Instruct-4bit 是一个基于 MLX 格式转换的视觉语言模型,专注于视频文本到文本的任务。
图像生成文本
Transformers
英语
S
smdesai
24
1
Kowen Vol 1 Base 7B
Apache-2.0
基于Qwen2-VL-7B-Instruct的韩语视觉语言模型,支持图像转文本任务
图像生成文本
Transformers
韩语
K
Gwonee
22
1
Pixtral 12B Captioner Relaxed
Apache-2.0
基于Pixtral-12B-2409微调的多模态大语言模型,专注于生成丰富的图像描述
图像生成文本
Transformers
英语
P
unalignment
26
3
Med CXRGen I
Apache-2.0
Med-CXRGen-I是基于LLaVA-v1.5-7B微调的多模态大语言模型,专注于胸部X光影像的放射学报告生成任务,特别是印象部分的生成。
图像生成文本
Transformers
M
X-iZhang
86
1
Med CXRGen F
Apache-2.0
Med-CXRGen-F是一个基于LLaVA-v1.5-7B微调的多模态大语言模型,专门用于放射学报告生成任务,特别是胸部X光检查结果部分的自动生成。
图像生成文本
Transformers
M
X-iZhang
86
1
Qwen2 VL 7B SafeRLHF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个基于 SafeRLHF 数据集微调的多模态大语言模型,专注于视觉问答任务,并强调安全性。
文本生成图像
Safetensors
英语
Q
Foreshhh
1,630
2
Xgen Mm Phi3 Mini Instruct Dpo R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research开发的多模态基础模型系列,基于BLIP系列改进,在高质量图像字幕和交错图文数据上训练。
图像生成文本
英语
X
Salesforce
305
18
Chartgemma
MIT
ChartGemma是基于PaliGemma构建的图表理解与推理模型,通过视觉指令微调直接处理图表图像,捕捉视觉趋势和底层信息。
图像生成文本
Transformers
英语
C
ahmed-masry
1,243
41
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
图像生成文本
Transformers
英语
X
Salesforce
804
186
Vip Llava 7b
ViP-LLaVA 是一款开源多模态聊天机器人,通过对 LLaMA/Vicuna 进行图像和区域级别指令数据的微调训练而成。
文本生成图像
Transformers
V
mucai
66.75k
8
Llava Med 7b Delta
其他
LLaVA-Med是通过视觉指令微调构建的生物医学领域多模态模型,具备处理生物医学图像和文本的能力。
文本生成图像
Transformers
L
microsoft
257
67
OTTER MPT7B Init
MIT
OTTER-MPT7B-Init是一个用于初始化Otter模型训练的权重,由Openflamingo直接转换而来。
文本生成图像
Transformers
O
luodian
53
3
Blip Image Captioning
这是一个基于 BLIP 架构的图像描述生成模型,能够为输入的图片生成简洁的文字描述。
图像生成文本
Transformers
B
nnpy
17
6