Nvidia.cosmos Reason1 7B GGUF
Cosmos-Reason1-7B是英伟达发布的7B参数规模的基础模型,专注于图文转文本任务。
大型语言模型
N
DevQuasar
287
1
Devstral Small Vision 2505 GGUF
Apache-2.0
基于Mistral Small模型的视觉编码器,支持图像文本生成任务,适配llama.cpp框架
图像生成文本
D
ngxson
777
20
Magma 8B GGUF
MIT
Magma-8B是一个基于GGUF格式的图像文本到文本转换模型,适用于多模态任务处理。
图像生成文本
M
Mungert
545
1
Typhoon Ocr 7b
专为泰英双语现实场景文档解析打造的视觉语言模型,基于Qwen2.5-VL-Instruction框架
图像生成文本
Transformers

支持多种语言
T
scb10x
126
9
Gemma 3 1b It Qat Bnb 4bit
Gemma 3是Google推出的轻量级开放模型系列,基于Gemini技术构建,支持多模态输入和文本输出。
图像生成文本
Transformers

G
unsloth
23
1
Qwen Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct的多模态大语言模型量化版本,支持图像文本到文本任务,适用于多种量化级别,从高精度到低内存需求。
文本生成图像
英语
Q
bartowski
1,336
1
Qwen Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,使用llama.cpp进行量化,支持多模态任务,适用于图文转文本等应用场景。
文本生成图像
英语
Q
bartowski
2,056
2
Vilt Finetuned 100
Apache-2.0
基于ViLT-B32-MLM模型在VQA数据集上微调的视觉语言模型
文本生成图像
Transformers

V
bangbrecho
15
0
TEMPURA Qwen2.5 VL 3B S1
TEMPURA是一个结合因果推理与细粒度时间分割的视频时序理解框架,通过两阶段训练提升视频事件理解能力
视频生成文本
Transformers

T
andaba
16
0
Qwen2.5 Vl 7b Cam Motion Preview
其他
基于Qwen2.5-VL-7B-Instruct微调的摄像机运动分析模型,专注于视频中的摄像机运动分类和视频-文本检索任务
视频生成文本
Transformers

Q
chancharikm
1,456
10
Webssl Dino7b Full8b 518
基于80亿MetaCLIP数据训练的70亿参数视觉Transformer模型,采用DINOv2自监督学习框架,无需语言监督
图像分类
Transformers

W
facebook
157
7
Gemma 3 12b It Qat Int4 GGUF
Gemma 3是谷歌基于Gemini技术构建的轻量级开放模型系列,12B版本采用量化感知训练(QAT)技术,支持多模态输入和128K上下文窗口。
文本生成图像
G
unsloth
1,921
3
Gemma 3 27b It Qat GGUF
Gemma 3是Google基于Gemini技术构建的轻量级开放模型系列,支持多模态输入和文本输出,具有128K大上下文窗口和140+语言支持。
文本生成图像
英语
G
unsloth
2,683
3
Gemma 3 4b It Qat Unsloth Bnb 4bit
Gemma 3是谷歌推出的轻量级前沿开放模型系列,基于Gemini模型技术构建,支持多模态输入和文本输出。
图像生成文本
Transformers

G
unsloth
918
1
Gemma 3 12b It Qat Int4
Gemma 3是Google推出的轻量级开放模型系列,基于创建Gemini模型的研究和技术构建。
图像生成文本
Transformers

G
unsloth
78
1
Gemma 3 27b It Qat
Gemma是Google推出的轻量级开放模型系列,基于Gemini模型技术构建。
图像生成文本
Transformers

G
unsloth
168
2
Blip Gqa Ft
MIT
基于Salesforce/blip2-opt-2.7b微调的视觉语言模型,用于图像问答任务
文本生成图像
Transformers

B
phucd
29
0
Blip Custom Captioning
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成等视觉-语言任务
图像生成文本
B
hiteshsatwani
78
0
Internvl3 8B 6bit
其他
InternVL3-8B-6bit 是一个基于 MLX 格式转换的视觉语言模型,支持多语言图像文本到文本的任务。
图像生成文本
Transformers

其他
I
mlx-community
70
1
Gemma 3 12B It Qat GGUF
Gemma 3 12B IT是由谷歌开发的大语言模型,支持多模态输入和长上下文处理。
图像生成文本
G
lmstudio-community
36.65k
4
Gemma 3 4B It Qat GGUF
Google出品的Gemma 3 4B IT模型,支持多模态输入和长上下文处理,适用于文本生成和图像理解任务。
图像生成文本
G
lmstudio-community
46.55k
10
Gemma 3 27b It Qat Bf16
Gemma 3 27B IT QAT BF16 是由 Google 发布的 Gemma 系列模型的一个版本,经过量化感知训练(QAT)并转换为 BF16 格式,适用于 MLX 框架。
图像生成文本
Transformers

G
mlx-community
178
2
Gemma 3 27b It Qat 3bit
其他
该模型是从 google/gemma-3-27b-it-qat-q4_0-unquantized 转换为 MLX 格式的 3 位量化版本,适用于图像文本到文本任务。
图像生成文本
Transformers

其他
G
mlx-community
197
2
Gemma 3 27b It Qat 4bit
其他
Gemma 3 27B IT QAT 4bit 是一个基于 Google 原始模型转换而来的 MLX 格式模型,支持图像文本到文本的任务。
图像生成文本
Transformers

其他
G
mlx-community
2,200
12
Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8
Apache-2.0
这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat和Neural Magic优化,适用于快速响应和低延迟场景。
文本到文本
Safetensors
支持多种语言
M
RedHatAI
833
2
Gemma 3 4b It Qat 4bit
其他
Gemma 3 4B IT QAT 4bit 是一个经过量化感知训练(QAT)的4位量化大语言模型,基于Gemma 3架构,专为MLX框架优化。
图像生成文本
Transformers

其他
G
mlx-community
607
1
Gemma 3 27b It Qat Q4 0 Unquantized
Gemma 3是Google推出的轻量级、先进的多模态开放模型,基于与Gemini模型相同的研究和技术构建,支持文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
11.53k
23
Videochat R1 7B
Apache-2.0
VideoChat-R1_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态视频理解模型,能够处理视频和文本输入,生成文本输出。
视频生成文本
Transformers

英语
V
OpenGVLab
1,686
7
Gemma 3 4b It GPTQ 4b 128g
基于gemma-3-4b-it模型进行INT4量化的版本,显著减少存储和计算资源需求
图像生成文本
Transformers

G
ISTA-DASLab
502
2
Gemma 3 12b It Qat Int4 Unquantized
Gemma 3是Google推出的轻量级多模态开放模型,支持文本和图像输入,生成文本输出,具有128K大上下文窗口和多语言能力。
图像生成文本
Transformers

G
google
1,358
9
Gemma 3 4b It Qat Int4 Unquantized
Gemma 3是Google推出的轻量级多模态开放模型,支持文本和图像输入,生成文本输出。
图像生成文本
Transformers

G
google
541
3
Gemma 3 27b It Qat Compressed Tensors
Gemma 3 是 Google 推出的轻量级先进开放模型系列,基于与 Gemini 模型相同的研究和技术构建。
图像生成文本
G
gaunernst
1,985
6
Gemma 3 12b It Qat Compressed Tensors
Gemma 3是Google推出的轻量级前沿开放模型家族,基于创建Gemini模型的相同研究与技术构建。
文本生成图像
G
gaunernst
867
1
Gemma 3 1b It Qat Q4 0 Unquantized
Gemma 3是Google推出的轻量级开源多模态模型系列,基于Gemini技术构建,支持文本和图像输入,生成文本输出。
图像生成文本
Transformers

G
google
246
4
Gemma 3 12b It Qat Q4 0 Unquantized
Gemma 3是Google基于Gemini技术打造的轻量级开源多模态模型系列,支持文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
1,159
10
Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
其他
羊驼4 Scout是Meta发布的170亿参数混合专家模型(MoE),支持多语言文本和图像理解,采用线性化专家模块设计便于PEFT/LoRA兼容。
多模态融合
Transformers

支持多种语言
L
axolotl-quants
6,861
3
Gemma 3 12b It Qat Q4 0 GGUF
Gemma是谷歌推出的轻量级前沿开放模型系列,基于Gemini技术构建。
图像生成文本
G
Mungert
1,008
3
Gemma 3 4b It Qat Q4 0 GGUF
Gemma是谷歌推出的轻量级尖端开放模型家族,基于与Gemini模型相同的研究和技术构建。
文本生成图像
G
Mungert
713
2
Gemma 3 27b It Qat Autoawq
Gemma 3是Google推出的轻量级前沿开放模型系列,基于与Gemini相同技术构建,支持多模态输入(文本/图像)和文本输出。
图像生成文本
G
gaunernst
789
4
Gemma 3 12b It Qat Autoawq
Gemma 3是Google基于Gemini技术构建的轻量级开放模型系列,支持多模态输入和文本输出。
图像生成文本
G
gaunernst
498
3
- 1
- 2
- 3
- 4
- 5
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文