Xlangai Jedi 3B 1080p GGUF
Apache-2.0
Jedi-3B-1080p是由xlangai开发的3B参数模型,经过llama.cpp量化处理,适用于图像文本生成文本任务。
大型语言模型
英语
X
bartowski
148
1
Dimple 7B
Apache-2.0
Dimple是首个结合自回归与扩散训练范式的离散扩散多模态大语言模型(DMLLM),在LLaVA-NEXT相同数据集上训练后,以3.9%的优势超越LLaVA-NEXT-7B。
图像生成文本
Transformers

英语
D
rp-yu
422
3
Magma 8B GGUF
MIT
Magma-8B是一个基于GGUF格式的图像文本到文本转换模型,适用于多模态任务处理。
图像生成文本
M
Mungert
545
1
Llava 1.5 7b Hf Q4 K M GGUF
该模型是基于llava-hf/llava-1.5-7b-hf转换的GGUF格式模型,支持图像文本生成任务。
图像生成文本
英语
L
Marwan02
30
1
Qwen Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct的多模态大语言模型量化版本,支持图像文本到文本任务,适用于多种量化级别,从高精度到低内存需求。
文本生成图像
英语
Q
bartowski
1,336
1
Jedi 7B 1080p
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一个基于 Qwen2.5 架构的多模态模型,支持图像和文本的联合处理,适用于视觉语言任务。
图像生成文本
英语
J
xlangai
239
2
Mistral Community Pixtral 12b GGUF
Apache-2.0
这是pixtral-12b模型的量化版本,使用llama.cpp进行量化,支持图像文本到文本的任务。
图像文本到文本
M
bartowski
1,728
4
UI TARS 1.5 7B 4bit
Apache-2.0
UI-TARS-1.5-7B-4bit是一个多模态模型,专注于图像文本到文本的转换任务,支持英文语言。
图像生成文本
Transformers

支持多种语言
U
mlx-community
184
1
Internvl3 8B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers

其他
I
OpenGVLab
454
1
Internvl3 1B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,展示了卓越的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers

其他
I
OpenGVLab
1,844
2
Gemma 3 27b It Qat Bf16
Gemma 3 27B IT QAT BF16 是由 Google 发布的 Gemma 系列模型的一个版本,经过量化感知训练(QAT)并转换为 BF16 格式,适用于 MLX 框架。
图像生成文本
Transformers

G
mlx-community
178
2
Gemma 3 27b It Qat 3bit
其他
该模型是从 google/gemma-3-27b-it-qat-q4_0-unquantized 转换为 MLX 格式的 3 位量化版本,适用于图像文本到文本任务。
图像生成文本
Transformers

其他
G
mlx-community
197
2
Gemma 3 27b It Qat 4bit
其他
Gemma 3 27B IT QAT 4bit 是一个基于 Google 原始模型转换而来的 MLX 格式模型,支持图像文本到文本的任务。
图像生成文本
Transformers

其他
G
mlx-community
2,200
12
Gemma 3 4b It GPTQ 4b 128g
基于gemma-3-4b-it模型进行INT4量化的版本,显著减少存储和计算资源需求
图像生成文本
Transformers

G
ISTA-DASLab
502
2
Gemma 3 12b It Qat Int4 Unquantized
Gemma 3是Google推出的轻量级多模态开放模型,支持文本和图像输入,生成文本输出,具有128K大上下文窗口和多语言能力。
图像生成文本
Transformers

G
google
1,358
9
Gemma 3 12b It Qat Q4 0 Unquantized
Gemma 3是Google基于Gemini技术打造的轻量级开源多模态模型系列,支持文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
1,159
10
Gemma 3 27b It Qat Q4 0 Gguf
Gemma 3是Google推出的轻量级开源多模态模型系列,支持文本和图像输入,能生成文本输出。
图像生成文本
G
vinimuchulski
4,674
6
Vora 7B Instruct
VoRA是一个基于7B参数的视觉-语言模型,专注于图像文本到文本的转换任务。
图像生成文本
Transformers

V
Hon-Wong
154
12
Vora 7B Base
VoRA是一个基于7B参数的视觉语言模型,能够处理图像和文本输入,生成文本输出。
图像生成文本
Transformers

V
Hon-Wong
62
4
Qwen2.5 VL 7B Instruct Q4 K M GGUF
Apache-2.0
这是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本,适用于多模态任务,支持图像和文本输入。
图像生成文本
英语
Q
PatataAliena
69
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct 是一个多模态视觉语言模型,支持图像理解和文本生成任务。
图像生成文本
英语
Q
Mungert
17.10k
10
Heron NVILA Lite 1B
Apache-2.0
基于NVILA-Lite架构训练的日语视觉语言模型,支持日语和英语的图文交互
图像生成文本
支持多种语言
H
turing-motors
460
2
Gemma 3 27b It Int4 Awq
Gemma是Google推出的轻量级先进开放模型系列,基于与Gemini相同的研究和技术构建。
文本生成图像
Transformers

G
gaunernst
17.62k
16
Gemma 3 4b It Int4 Awq
Gemma是Google推出的轻量级先进开放模型系列,基于与Gemini相同的研究技术构建。
文本生成图像
Transformers

G
gaunernst
1,054
1
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
该模型是从 ds4sd/SmolDocling-256M-preview 转换为 MLX 格式的视觉语言模型,支持图像文本到文本任务。
图像生成文本
Transformers

英语
S
ahishamm
24
1
Gemma 3 4b Pt Qat Q4 0 Gguf
Gemma 3是Google推出的轻量级开放模型系列,基于与Gemini相同技术构建,支持多模态输入和文本输出。
图像生成文本
G
google
912
16
Gemma 3 27b It Mlx
这是一个基于Google Gemma 3 27B IT模型转换的MLX版本,支持图像文本到文本的任务。
图像生成文本
Transformers

G
stephenwalker
24
1
Rexseek 3B
其他
这是一个图像文本到文本的转换模型,能够处理图像和文本输入,生成相应的文本输出。
文本生成图像
Transformers

R
IDEA-Research
186
4
Bytedance Research.ui TARS 72B SFT GGUF
字节跳动研究团队发布的72B参数规模的多模态基础模型,专注于图像文本转文本任务
图像生成文本
B
DevQuasar
81
1
Chameleon 7b
其他
Meta发布的变色龙系列7B参数规模的多模态模型,支持图像文本转文本任务
大型语言模型
C
FriendliAI
24
1
Toriigate V0.4 7B I1 GGUF
Apache-2.0
这是对Minthy/ToriiGate-v0.4-7B模型进行的加权/重要性矩阵量化版本,提供多种量化选项以适应不同需求。
图像生成文本
英语
T
mradermacher
410
1
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ 是使用 autoawq 对 InternVL2_5-4B 进行 AWQ 量化的版本,支持多语言和多模态任务。
图像生成文本
Transformers

其他
I
rootonchair
29
2
Aya Vision 8b
Aya Vision 8B是一个开放权重的80亿参数多语言视觉语言模型,支持23种语言的视觉和语言任务。
图像生成文本
Transformers

支持多种语言
A
CohereLabs
29.94k
282
Gemma 3 12b It
Gemma是Google推出的轻量级前沿开源多模态模型系列,基于创建Gemini模型的技术构建,支持文本和图像输入并生成文本输出。
图像生成文本
Transformers

G
google
364.65k
340
Gemma 3 12b Pt
Gemma是Google推出的轻量级开源多模态模型系列,基于与Gemini相同技术构建,支持文本和图像输入并生成文本输出。
图像生成文本
Transformers

G
google
54.36k
46
Gemma 3 4b It
Gemma是Google推出的轻量级先进开放模型系列,基于与Gemini相同的研究和技术构建。
图像生成文本
Transformers

G
google
608.22k
477
MM RLHF Reward 7B Llava Ov Qwen
MIT
这是一个图像文本到文本的转换模型,能够将输入的图像和文本转换为新的文本输出。
图像生成文本
Transformers

M
yifanzhang114
25
1
Vitucano 2b8 V1
Apache-2.0
ViTucano是首个原生葡萄牙语预训练的视觉助手,融合视觉理解与语言能力,适用于多模态任务如图像描述、视觉问答等。
图像生成文本
Transformers

其他
V
TucanoBR
86
5
Qwen2 VL 2B Instruct GGUF
Apache-2.0
Qwen2-VL-2B-Instruct 是一个多模态视觉语言模型,支持图像和文本的交互,适用于图像理解和生成任务。
图像生成文本
英语
Q
gaianet
95
1
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
图像生成文本
英语
Q
second-state
195
4
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文