多模态推理
Internvl3 14B Instruct GGUF
Apache-2.0
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
图像生成文本
Transformers
I
unsloth
982
1
Internvl3 8B Instruct GGUF
Apache-2.0
InternVL3-8B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的整体性能,具备强大的多模态感知和推理能力。
文本生成图像
Transformers
I
unsloth
2,412
1
Bespoke MiniChart 7B
由Bespoke Labs开发的7B参数规模开源图表理解视觉语言模型,在图表问答任务上超越Gemini-1.5-Pro等闭源模型
文本生成图像
英语
B
bespokelabs
437
12
Skywork R1V2 38B
MIT
天工-R1V2-38B是当前最先进的开源多模态推理模型,在多项基准测试中表现卓越,具备强大的视觉推理与文本理解能力。
图像生成文本
Transformers
S
Skywork
1,778
105
Vica2 Init
Apache-2.0
ViCA2是一个多模态视觉语言模型,专注于视频理解和视觉空间认知任务。
视频生成文本
Transformers
英语
V
nkkbr
30
0
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2是一个7B参数规模的多模态视觉语言模型,专注于视频理解和视觉空间认知任务。
视频生成文本
Transformers
英语
V
nkkbr
63
0
Infigui R1 3B
Apache-2.0
基于Qwen2.5-VL-3B-Instruct的多模态GUI智能体,通过强化学习增强在图形用户界面任务中的规划和反思能力
图像生成文本
Transformers
支持多种语言
I
Reallm-Labs
105
1
Internvl3 78B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers
其他
I
OpenGVLab
40
1
Spacethinker Qwen2.5VL 3B
Apache-2.0
SpaceThinker是一款通过测试时计算增强空间推理能力的多模态视觉语言模型,特别擅长定量空间推理和物体关系分析。
文本生成图像
英语
S
remyxai
490
7
Internvl3 9B AWQ
MIT
InternVL3-9B是InternVL3系列中的一款多模态大语言模型,具备卓越的多模态感知与推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。
文本生成图像
Transformers
其他
I
OpenGVLab
214
1
Internvl3 8B AWQ
其他
InternVL3-8B是OpenGVLab推出的先进多模态大语言模型,具备强大的多模态感知与推理能力,支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。
图像生成文本
Transformers
其他
I
OpenGVLab
1,441
3
TBAC VLR1 3B Preview
Apache-2.0
由腾讯PCG基础算法中心微调的多模态语言模型,基于Qwen2.5-VL-3B-Instruct优化,在同规模模型中实现多项多模态推理基准的最先进性能
图像生成文本
英语
T
TencentBAC
328
11
Internvl3 9B Instruct
MIT
InternVL3-9B-Instruct 是 InternVL3 系列的监督微调版本,具备强大的多模态感知和推理能力,支持图像、文本、视频等多种模态处理。
图像生成文本
Transformers
其他
I
OpenGVLab
220
2
Internvl3 8B Instruct
其他
InternVL3-8B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种功能。
图像生成文本
Transformers
其他
I
OpenGVLab
885
2
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)优化发布,适用于快速响应的对话代理和低延迟推理场景。
文本生成图像
Safetensors
支持多种语言
M
RedHatAI
219
1
VL Reasoner 7B
Apache-2.0
VL-Reasoner-7B 是一个基于 GRPO-SSR 技术训练的多模态推理模型,在多项多模态推理基准测试中表现卓越。
文本生成图像
Transformers
英语
V
TIGER-Lab
126
1
General Reasoner 14B Preview
Apache-2.0
基于Qwen2.5-14B基础模型和VisualWebInstruct-Verified数据集训练的多模态推理模型,支持英语任务处理。
大型语言模型
Transformers
英语
G
TIGER-Lab
33
3
Spaceqwen2.5 VL 3B Instruct GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instruct 是一个多模态视觉语言模型,专注于空间推理和具身智能任务。
文本生成图像
英语
S
mradermacher
282
0
R01 Gemma 3 1b It
Gemma 3是谷歌推出的轻量级开源多模态模型,基于与Gemini相同技术构建,支持文本和图像输入并生成文本输出。
文本生成图像
Transformers
英语
R
EpistemeAI
17
1
Cogito V1
Apache-2.0
DeepCogito推出的通过迭代蒸馏与放大(IDA)训练的强大混合推理模型,在编程、STEM、多语言和智能体应用场景中表现卓越。
大型语言模型
C
cortexso
4,002
2
Space Voice Label Detect Beta
Apache-2.0
基于Qwen2.5-VL-3B模型的微调版本,使用Unsloth和Huggingface TRL库进行训练,推理速度提升2倍
文本生成图像
Transformers
英语
S
devJy
38
1
Dreamer 7B
Apache-2.0
WebDreamer 是一个规划框架,能够为现实世界中的网页智能体任务实现高效且有效的规划。
图像生成文本
Transformers
英语
D
osunlp
62
3
Gemma 3 27b It GGUF
Gemma 3 27B参数的GGUF量化版本,支持图像文本交互任务
文本生成图像
G
Mungert
4,034
6
3B Curr ReFT
Apache-2.0
基于Qwen2.5-VL通过创新性Curr-ReFT方法微调的多模态大语言模型,显著提升了视觉语言理解与推理能力。
文本生成图像
3
ZTE-AIM
37
3
STEVE R1 7B SFT I1 GGUF
Apache-2.0
这是对Fanbin/STEVE-R1-7B-SFT模型进行的加权/矩阵量化版本,适用于资源受限环境。
文本生成图像
英语
S
mradermacher
394
0
Videomind 2B
Bsd-3-clause
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
视频生成文本
V
yeliudev
207
1
Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g
Apache-2.0
本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本,通过GPTQ算法将权重从16位降至4位,显著减少磁盘大小和GPU内存需求。
大型语言模型
M
ISTA-DASLab
21.89k
13
Vintern 3B R Beta
MIT
Vintern-3B-R-beta是一个多模态大语言模型,专注于基于图像的复杂推理任务,能分解推理步骤并有效控制幻觉现象。
图像生成文本
Transformers
支持多种语言
V
5CD-AI
1,841
14
Llama 3.2 11B Vision Medical
Apache-2.0
基于unsloth/Llama-3.2-11B-Vision-Instruct微调的模型,使用Unsloth和Huggingface的TRL库进行训练,速度提升了2倍。
文本生成图像
Transformers
英语
L
Varu96
25
1
Sarashina2 Vision 14b
MIT
Sarashina2-Vision-14B是由SB Intuitions开发的日本大型视觉语言模型,结合了Sarashina2-13B和Qwen2-VL-7B的图像编码器,在多个基准测试中表现优异。
图像生成文本
Transformers
支持多种语言
S
sbintuitions
192
6
Sarashina2 Vision 8b
MIT
Sarashina2-Vision-8B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2-7B和Qwen2-VL-7B的图像编码器,在多个基准测试中表现优异。
图像生成文本
Transformers
支持多种语言
S
sbintuitions
1,233
4
Visualthinker R1 Zero
MIT
首个在仅一个非监督微调的2B模型上复现'顿悟时刻'和响应长度增加的多模态推理模型
图像生成文本
英语
V
turningpoint-ai
578
6
Spec Vision V1
MIT
Spec-Vision-V1是一款轻量级、最先进的开源多模态模型,专为深度整合视觉与文本数据而构建,支持128K的上下文长度。
文本生成图像
Transformers
其他
S
SVECTOR-CORPORATION
17
1
Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,支持视觉-文本输入和文本输出,通过INT8权重量化优化推理效率
图像生成文本
Transformers
英语
Q
RedHatAI
1,992
3
Qwen2.5 VL 3B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-3B-Instruct的FP8量化版本,支持视觉-文本输入和文本输出,优化了推理效率。
文本生成图像
Transformers
英语
Q
RedHatAI
112
1
UI TARS 2B SFT
Apache-2.0
UI-TARS是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
图像生成文本
Transformers
支持多种语言
U
bytedance-research
5,792
19
QVQ 72B Preview AWQ
其他
QVQ-72B-Preview是Qwen团队开发的实验性研究模型,专注于提升视觉推理能力,本仓库提供其AWQ 4比特量化版本。
图像生成文本
Transformers
英语
Q
kosbu
532
8
Llamav O1
Apache-2.0
LlamaV-o1 是一款先进的多模态大语言模型,专为复杂的视觉推理任务而设计,通过课程学习技术优化,在多样化的基准测试中展现出卓越性能。
文本生成图像
英语
L
omkarthawakar
1,406
93
Videolisa 3.8B
Apache-2.0
该模型是基于LLaVA-Phi-3-mini-4k-instruct开发的视频语言指导推理分割模型,专注于视频中的对象分割任务。
文本生成图像
英语
V
ZechenBai
247
6
NVLM D 72B
NVLM 1.0 是一系列前沿的多模态大语言模型,在视觉语言任务上取得了最先进的结果,可与领先的专有模型和开放访问模型相媲美。
图像生成文本
Transformers
英语
N
nvidia
14.33k
769