多模态指令理解
Pixelreasoner RL V1
Apache-2.0
PixelReasoner是一个基于Qwen2.5-VL-7B-Instruct的视觉语言模型,采用好奇心驱动强化学习训练,专注于图像文本到文本的任务。
图像生成文本
Transformers
英语
P
TIGER-Lab
112
3
Jedi 3B 1080p
Apache-2.0
基于Qwen2.5-VL-3B的多模态指令模型,专注于计算机使用场景的视觉语言任务
图像生成文本
Transformers
英语
J
xlangai
632
3
Jedi 7B 1080p
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一个基于 Qwen2.5 架构的多模态模型,支持图像和文本的联合处理,适用于视觉语言任务。
图像生成文本
英语
J
xlangai
239
2
Ultravox V0 5 Llama 3 1 8b
MIT
基于Llama-3.1-8B-Instruct的多语言音频文本转文本模型,支持40多种语言处理
大型语言模型
Transformers
支持多种语言
U
FriendliAI
218
0
Llama 4 Scout 17B 16E Instruct FP8 Dynamic
其他
基于Llama-4构建的17B参数多语言指令模型,采用FP8量化优化,显著降低资源需求
图像生成文本
Safetensors
支持多种语言
L
RedHatAI
5,812
8
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一个32B参数规模的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
图像生成文本
英语
Q
Mungert
9,766
6
Qwen.qwen2.5 VL 32B Instruct GGUF
Qwen2.5-VL-32B-Instruct 是一个32B参数规模的多模态视觉语言模型,支持图像与文本的联合理解与生成任务。
图像生成文本
Q
DevQuasar
27.50k
1
Qwen2.5 VL 32B Instruct W4A16 G128
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一个32B参数规模的多模态大语言模型,支持视觉和语言任务,适用于复杂的多模态交互场景。
图像生成文本
Q
leon-se
16
2
Qwen2 VL 2B Instruct
Apache-2.0
Qwen2-VL-2B-Instruct 是一个多模态视觉语言模型,支持图像文本到文本的任务。
图像生成文本
Transformers
英语
Q
FriendliAI
24
1
Instructclip InstructPix2Pix
Apache-2.0
InstructCLIP是一种通过对比学习自动数据优化改进指令引导的图像编辑模型,结合了CLIP和稳定扩散技术,能够根据文本指令编辑图像。
文本生成图像
英语
I
SherryXTChen
450
5
Qwen2 VL 7B Visual Rft Lisa IoU Reward
Apache-2.0
Qwen2-VL-7B-Instruct 是一个基于 Qwen2 架构的视觉语言模型,支持图像和文本的多模态输入,适用于多种视觉语言任务。
图像生成文本
英语
Q
Zery
726
4
Qwen 2 VL 7B OCR
Apache-2.0
基于Qwen2-VL-7B模型的微调版本,使用Unsloth和Huggingface的TRL库进行训练,速度提升2倍。
文本生成图像
Transformers
英语
Q
Swapnik
103
1
Llama 3.2 11B Vision OCR
Apache-2.0
基于Unsloth优化的Llama 3.2-11B视觉指令模型,4bit量化版本,训练速度提升2倍
大型语言模型
Transformers
英语
L
Swapnik
80
1
Llama 3 2 11b Vision Electrical Components Instruct
MIT
Llama 3.2 11B Vision Instruct 是一个结合视觉和语言的多模态模型,支持图像转文本任务。
图像生成文本
英语
L
ankitelastiq
22
1
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。
多模态融合
Transformers
支持多种语言
P
Robeeeeeeeeeee
21
1
Phi 4 Multimodal Instruct Onnx
MIT
Phi-4多模态模型的ONNX版本,已量化为int4精度,通过ONNX Runtime加速推理,支持文本、图像和音频输入。
多模态融合
其他
P
microsoft
159
66
Qwen2.5 VL 7B Instruct 4bit
Apache-2.0
基于Qwen2.5-VL-7B-Instruct模型微调的多模态模型,采用Unsloth加速框架和TRL库训练,速度提升2倍
文本生成图像
Transformers
英语
Q
jarvisvasu
180
1
Pixtral Large Instruct 2411
其他
Pixtral-Large-Instruct-2411是基于MistralAI技术的多模态指令微调模型,支持图像和文本输入,具备多语言处理能力。
图像生成文本
Transformers
支持多种语言
P
nintwentydo
23
2
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个7B参数规模的多模态模型,支持图像与文本的交互任务。
图像生成文本
英语
Q
gaianet
102
2
Qwen2 VL 7B Instruct Onnx
Apache-2.0
这是一个基于Qwen2-VL架构的7B参数规模的视觉语言模型,支持图像理解和指令交互。
文本生成图像
Transformers
Q
pdufour
47
4
Taivisionlm Base V2
首个支持繁体中文指令输入的视觉语言模型(12亿参数),兼容Transformers库,加载迅速、微调便捷
图像生成文本
Transformers
中文
T
benchang1110
122
4
Openvla 7b Finetuned Libero 10
MIT
该模型是通过在LIBERO-10数据集上采用LoRA方法微调OpenVLA 7B模型得到的视觉语言动作模型,适用于机器人技术领域。
图像生成文本
Transformers
英语
O
openvla
1,779
2
Openvla 7b Finetuned Libero Goal
MIT
这是一个在LIBERO-Goal数据集上使用LoRA技术微调的OpenVLA 7B视觉语言动作模型,适用于机器人技术领域。
图像生成文本
Transformers
英语
O
openvla
746
1
Octo Small 1.5
MIT
Octo小型版是一个用于机器人控制的扩散策略模型,采用Transformer架构,能够根据视觉输入和语言指令预测机器人动作。
多模态融合
Transformers
O
rail-berkeley
250
6