Bytedance BAGEL 7B MoT INT8
Apache-2.0
BAGEL是一个开源的7B活跃参数多模态基础模型,支持多模态理解与生成任务
文本生成图像
B
Gapeleon
190
20
BAGEL 7B MoT
Apache-2.0
BAGEL是一个开源的、拥有70亿活跃参数的多模态基础模型,训练于大规模交错多模态数据,在理解和生成任务上表现优异。
文本生成图像
B
ByteDance-Seed
4,736
769
Qwen3 1.7B GGUF
Apache-2.0
Qwen3是通义千问系列大语言模型的最新版本,提供了一系列密集型和混合专家(MoE)模型。
大型语言模型
英语
Q
prithivMLmods
357
1
Qwen3 0.6B GGUF
Apache-2.0
Qwen3是通义千问系列大语言模型的最新版本,提供了一系列密集型和混合专家(MoE)模型。
大型语言模型
英语
Q
prithivMLmods
290
1
Ling Lite 1.5
MIT
灵曦是由InclusionAI开源的大规模混合专家语言模型,精简版拥有168亿总参数与27.5亿激活参数,展现出卓越性能表现。
大型语言模型
Transformers

L
inclusionAI
46
3
Qwen3 128k 30B A3B NEO MAX Imatrix Gguf
Apache-2.0
基于Qwen3-30B-A3B混合专家模型的GGUF量化版本,上下文扩展至128k,采用NEO Imatrix量化技术优化,支持多语言和多任务处理。
大型语言模型
支持多种语言
Q
DavidAU
17.20k
10
Qwen3 30B A7.5B 24 Grand Brainstorm
基于Qwen3-30B-A3B混合专家模型的微调版本,激活专家数量从8个增加到24个,适用于需要深度推理的复杂任务
大型语言模型
Transformers

Q
DavidAU
55
7
Qwen3 30B A6B 16 Extreme 128k Context
基于千问3-30B-A3B的混合专家模型微调版本,激活专家数提升至16,上下文窗口扩展至128k,适合复杂推理场景
大型语言模型
Transformers

Q
DavidAU
72
7
Qwen3 30B A1.5B High Speed
Qwen3-30B的高速优化版本,通过减少激活专家数量实现推理速度翻倍,适用于需要快速响应的文本生成场景
大型语言模型
Transformers

Q
DavidAU
179
7
Qwen3 235B A22B AWQ
Apache-2.0
Qwen3-235B-A22B是Qwen系列最新一代的大语言模型,采用混合专家(MoE)架构,具有2350亿参数和220亿激活参数,在推理、指令遵循、代理能力和多语言支持方面表现卓越。
大型语言模型
Transformers

Q
cognitivecomputations
2,563
9
Nomic Embed Text V2 GGUF
Apache-2.0
Nomic Embed Text V2 GGUF 是一个多语言文本嵌入模型,支持超过70种语言,适用于句子相似度计算和特征提取任务。
文本嵌入
支持多种语言
N
ggml-org
317
3
Granite 4.0 Tiny Base Preview
Apache-2.0
Granite-4.0-Tiny-Base-Preview 是IBM开发的70亿参数混合专家(MoE)语言模型,具有128k token上下文窗口,采用Mamba-2技术增强表达能力。
大型语言模型
Transformers

G
ibm-granite
156
12
Qwen3 30B A3B GGUF
Apache-2.0
Qwen3是阿里云开发的最新大语言模型系列,支持思维模式与非思维模式动态切换,在推理、多语言支持和智能体能力方面表现突出。
大型语言模型
英语
Q
unsloth
261.09k
169
Qwen3 30B A3B GGUF
Apache-2.0
由Qwen开发的大语言模型,支持131,072 tokens上下文长度,擅长创意写作、角色扮演和多轮对话。
大型语言模型
Q
lmstudio-community
77.06k
21
Qwen3 235B A22B GGUF
Apache-2.0
Qwen团队推出的2350亿参数大语言模型量化版本,支持131k上下文长度和混合专家架构
大型语言模型
Q
lmstudio-community
22.88k
10
Qwen3 235B A22B
Apache-2.0
Qwen3是通义千问系列大语言模型的最新版本,提供稠密模型与混合专家(MoE)模型的完整套件,在推理、指令遵循、智能体能力和多语言支持方面实现突破性进展。
大型语言模型
Transformers

Q
Qwen
159.10k
849
Qwen3 30B A3B
Apache-2.0
Qwen3是通义千问系列大语言模型的最新版本,提供完整的稠密模型与混合专家(MoE)模型组合。
大型语言模型
Transformers

Q
Qwen
218.81k
571
MAI DS R1 GGUF
MIT
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后续训练,以提升其在受限话题上的响应能力并优化其风险表现,同时保持其推理能力和竞争性能。
大型语言模型
M
unsloth
916
4
Llama3.1 MOE 4X8B Gated IQ Multi Tier COGITO Deep Reasoning 32B GGUF
Apache-2.0
一个具备可调节推理能力的混合专家(MoE)模型,通过4个8B模型的协作实现增强推理和文本生成能力
大型语言模型
支持多种语言
L
DavidAU
829
2
MAI DS R1
MIT
MAI-DS-R1是微软AI团队对DeepSeek-R1推理模型进行后训练的成果,旨在提升其对敏感话题的响应能力并优化风险表现,同时保持原有推理能力和竞争优势。
大型语言模型
Transformers

M
microsoft
8,840
250
Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
其他
羊驼4 Scout是Meta发布的170亿参数混合专家模型(MoE),支持多语言文本和图像理解,采用线性化专家模块设计便于PEFT/LoRA兼容。
多模态融合
Transformers

支持多种语言
L
axolotl-quants
6,861
3
Llama 4 Scout 17B 16E Unsloth
其他
Llama 4 Scout是Meta推出的170亿参数多模态AI模型,采用混合专家架构,支持12种语言和图像理解。
文本生成图像
Transformers

支持多种语言
L
unsloth
67
1
Llama 4 Maverick 17B 128E
其他
Llama 4 Maverick是Meta开发的多模态AI模型,采用混合专家架构,支持文本和图像理解,具有170亿激活参数和4000亿总参数。
文本生成图像
Transformers

支持多种语言
L
meta-llama
3,261
69
Llama 4 Maverick 17B 128E Instruct
其他
Llama 4 Maverick是Meta推出的170亿参数多模态AI模型,采用混合专家架构(MoE),支持多语言文本和图像理解,具备128个专家模块。
大型语言模型
Transformers

支持多种语言
L
meta-llama
87.79k
309
Deepseek V3 0324 GGUF
MIT
DeepSeek-V3-0324 是 DeepSeek 团队发布的 3 月更新版本,相比前代在多个基准测试上有显著提升,支持动态量化版本,适用于本地推理。
大型语言模型
英语
D
unsloth
108.44k
177
Llm Jp 3 8x13b Instruct3
Apache-2.0
由日本国立信息学研究所开发的大规模日语-英语混合MoE语言模型,支持8x13B参数规模,经过指令微调优化
大型语言模型
Transformers

支持多种语言
L
llm-jp
162
3
Nomic Embed Text V2 Moe Unsupervised
这是一个多语言混合专家(MoE)文本嵌入模型的中间版本,经过多阶段对比训练得到
文本嵌入
N
nomic-ai
161
5
Deepseek R1
MIT
DeepSeek-R1是深度求索推出的第一代推理模型,通过大规模强化学习训练,在数学、代码和推理任务上表现优异。
大型语言模型
Transformers

D
deepseek-ai
1.7M
12.03k
Falcon3 MoE 2x7B Insruct
其他
Falcon3 7B-IT 与 7B-IT 的混合专家模型,具有134亿参数,支持英语、法语、西班牙语、葡萄牙语四种语言,上下文长度最高可达32K。
大型语言模型
Safetensors
英语
F
ehristoforu
273
10
Tanuki 8x8B Dpo V1.0
Apache-2.0
Tanuki-8x8B是从零开始预训练的大规模语言模型,通过SFT和DPO针对对话任务进行了优化
大型语言模型
Transformers

支持多种语言
T
weblab-GENIAC
217
38
Karakuri Lm 8x7b Chat V0.1
Apache-2.0
由KARAKURI公司开发的专家混合模型(MoE),支持英语和日语对话,基于Swallow-MX-8x7b-NVE-v0.1微调
大型语言模型
Transformers

支持多种语言
K
karakuri-ai
526
23
Mixtral 8x22B V0.1 GGUF
Apache-2.0
Mixtral 8x22B是由MistralAI发布的1760亿参数混合专家模型,支持多语言文本生成任务。
大型语言模型
支持多种语言
M
MaziyarPanahi
170.27k
74
Lola V1
LOLA是基于稀疏混合专家(Mixture-of-Experts)Transformer架构、支持160多种语言的超大规模多语言大模型,在自然语言生成与理解任务中具有竞争优势。
大型语言模型
Transformers

其他
L
dice-research
867
10
Jambatypus V0.1
Apache-2.0
基于Jamba-v0.1在Open-Platypus-Chat数据集上通过QLoRA微调的大语言模型,支持对话任务
大型语言模型
Transformers

英语
J
mlabonne
21
39
Dbrx Base
其他
Databricks开发的混合专家(MoE)大语言模型,1320亿参数总量,360亿激活参数,支持32K上下文窗口
大型语言模型
Transformers

D
databricks
100
557
MGM 7B
MGM-7B是基于Vicuna-7B-v1.5训练的开源多模态聊天机器人,支持高清图像理解、推理与生成。
文本生成图像
Transformers

M
YanweiLi
975
8
Xlam V0.1 R
xLAM-v0.1是大型动作模型系列的重大升级版本,在参数数量相同的情况下,已在广泛的代理任务和场景中进行了微调,同时保留了原始模型的能力。
大型语言模型
Transformers

X
Salesforce
190
53
Mixtral Chat 7b
MIT
这是一个通过mergekit工具合并多个Mistral-7B变体模型而成的混合模型,专注于文本生成任务。
大型语言模型
英语
M
LeroyDyer
76
2
Swallow MX 8x7b NVE V0.1
Apache-2.0
Swallow-MX-8x7b-NVE-v0.1是基于Mixtral-8x7B-Instruct-v0.1进行持续预训练的混合专家模型,主要增强了日语能力。
大型语言模型
Transformers

支持多种语言
S
tokyotech-llm
1,293
29
Mixtral 8x7B Holodeck V1 GGUF
Apache-2.0
基于Mixtral 8x7B微调的GGUF格式模型,专为Koboldcpp设计,训练数据包含约3000本多流派电子书
大型语言模型
英语
M
KoboldAI
376
15
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文