Qwen2.5 VL 3B Instruct GGUF
Qwen2.5-VL是Qwen家族的最新视觉语言模型,具备强大的视觉理解和多模态处理能力。
图像生成文本
英语
Q
unsloth
4,645
4
PE Lang G14 448
Apache-2.0
感知编码器是通过视觉语言训练实现的最先进图像视频理解编码器,具有强大的泛化能力。
文本生成图像
P
facebook
247
11
PE Lang L14 448
Apache-2.0
感知编码器(PE)是一种通过视觉-语言学习训练而成的先进图像与视频理解编码器,在多种视觉任务上具有最先进性能。
文本生成图像
P
facebook
1,087
6
Space Model
Apache-2.0
Qwen2.5-VL-32B-Instruct是Qwen家族的最新视觉语言模型,具备强大的视觉理解和智能代理能力,支持多模态任务处理。
图像生成文本
Transformers

支持多种语言
S
Alhdrawi
58
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一个多模态视觉语言模型,支持图像理解和文本生成任务。
图像生成文本
英语
Q
Mungert
17.10k
10
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新视觉语言模型,具备强大的多模态理解和生成能力,支持图像、视频和文本的交互。
文本生成图像
Transformers

英语
Q
christopherthompson81
68
3
Amoral Gemma3 12B Vision
基于soob3123/amoral-gemma3-12B的视觉增强版本,结合了Gemma3-12B大语言模型与视觉编码器,支持多模态任务
图像生成文本
Transformers

英语
A
gghfez
25
2
Qwen2.5 VL Instruct 3B Geo
Apache-2.0
Qwen2.5-VL是Qwen家族的最新视觉语言模型,专注于增强视觉理解和代理能力。
文本生成图像
Transformers

英语
Q
kxxinDave
29
2
Mlabonne Gemma 3 4b It Abliterated GGUF
这是一个基于mlabonne/gemma-3-4b-it-abliterated模型的量化版本,使用llama.cpp进行imatrix量化,适用于图像文本到文本任务。
图像生成文本
M
bartowski
9,164
8
Toriigate V0.4 7B I1 GGUF
Apache-2.0
这是对Minthy/ToriiGate-v0.4-7B模型进行的加权/重要性矩阵量化版本,提供多种量化选项以适应不同需求。
图像生成文本
英语
T
mradermacher
410
1
Qwen2.5 VL 72B Instruct AWQ Fix
其他
Qwen2.5-VL 是 Qwen 家族的最新视觉语言模型,具备强大的视觉理解和代理能力,支持多格式视觉定位和结构化输出生成。
图像生成文本
Transformers

英语
Q
Benasd
94
1
Qwen2.5 VL 72B Instruct AWQ
其他
Qwen2.5-VL是通义千问团队推出的多模态大语言模型,具备强大的视觉理解和智能代理能力,支持图像、视频、文本等多种输入格式。
文本生成图像
Transformers

英语
Q
Benasd
173
6
Qwen2.5 VL 7B Instruct AWQ
Apache-2.0
Qwen2.5-VL是通义千问推出的多模态视觉语言模型,具备强大的图像理解和文本生成能力。
图像生成文本
Transformers

英语
Q
Benasd
226
7
Minicpm O 2 6 Gguf
MiniCPM-o 2.6是一个多模态模型,支持视觉和语言任务,专为llama.cpp设计。
图像生成文本
M
openbmb
5,660
101
Razorback 12B V0.2
其他
Razorback 12B v0.2 是一个结合了Pixtral 12B和UnslopNemo v3优势的多模态模型,具备视觉理解和语言处理能力。
图像生成文本
Transformers

支持多种语言
R
nintwentydo
17
3
Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit
Meta Llama 3.2系列90B参数的多模态大语言模型,支持视觉指令理解,经Unsloth动态4位量化优化
文本生成图像
Transformers

英语
L
unsloth
58
2
Minicpm V 2 6 Rk3588 1.1.4
MiniCPM-V 2.6是支持单图、多图和视频理解的GPT-4V级别多模态大语言模型,专为RK3588 NPU优化
图像生成文本
Transformers

其他
M
c01zaut
31
3
Cambrian 8b
Apache-2.0
寒武纪是一个开源的以视觉为核心设计的 multimodal LLM(多模态大语言模型)。
文本生成图像
Transformers

C
nyu-visionx
565
63
Phi 3 Vision 128k Instruct
MIT
Phi-3-Vision-128K-Instruct是一个轻量级、前沿的开放多模态模型,支持128K令牌的上下文长度,专注于文本和视觉领域的高质量推理。
图像生成文本
Transformers

其他
P
microsoft
25.19k
958
Owlv2 Base Patch16
OWLv2是一个基于视觉语言预训练的模型,专注于对象检测和定位任务。
目标检测
Transformers

O
Xenova
17
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文