混合专家架构

# 混合专家架构

Apollo2 7B GGUF

Apollo2-7B-GGUF 是 FreedomIntelligence/Apollo2-7B 的量化版本，支持多种语言的医学大语言模型应用。

大型语言模型支持多种语言

Bytedance BAGEL 7B MoT INT8

BAGEL是一个开源的7B活跃参数多模态基础模型，支持多模态理解与生成任务

文本生成图像

BAGEL是一个开源的、拥有70亿活跃参数的多模态基础模型，训练于大规模交错多模态数据，在理解和生成任务上表现优异。

文本生成图像

Qwen3 1.7B GGUF

Qwen3是通义千问系列大语言模型的最新版本，提供了一系列密集型和混合专家（MoE）模型。基于大规模训练，Qwen3在推理、指令遵循、智能体能力和多语言支持方面实现了突破性进展。

大型语言模型英语

Qwen3 0.6B GGUF

Qwen3是通义千问系列大语言模型的最新版本，提供了一系列密集型和混合专家（MoE）模型。基于大规模训练，Qwen3在推理能力、指令遵循、智能体功能和多语言支持方面实现了突破性进展。

大型语言模型英语

灵曦是由InclusionAI开源的大规模混合专家语言模型，精简版拥有168亿总参数与27.5亿激活参数，展现出卓越性能表现。

大型语言模型

Qwen3 128k 30B A3B NEO MAX Imatrix Gguf

基于Qwen3-30B-A3B混合专家模型的GGUF量化版本，上下文扩展至128k，采用NEO Imatrix量化技术优化，支持多语言和多任务处理。

大型语言模型支持多种语言

Qwen3 30B A7.5B 24 Grand Brainstorm

基于Qwen3-30B-A3B混合专家模型的微调版本，激活专家数量从8个增加到24个，适用于需要深度推理的复杂任务

大型语言模型

Qwen3 30B A6B 16 Extreme 128k Context

基于千问3-30B-A3B的混合专家模型微调版本，激活专家数提升至16，上下文窗口扩展至128k，适合复杂推理场景

大型语言模型

Qwen3 30B A1.5B High Speed

Qwen3-30B的高速优化版本，通过减少激活专家数量实现推理速度翻倍，适用于需要快速响应的文本生成场景

大型语言模型

Qwen3 235B A22B AWQ

Qwen3-235B-A22B是Qwen系列最新一代的大语言模型，采用混合专家(MoE)架构，具有2350亿参数和220亿激活参数，在推理、指令遵循、代理能力和多语言支持方面表现卓越。

大型语言模型

cognitivecomputations

Nomic Embed Text V2 GGUF

Nomic Embed Text V2 GGUF 是一个多语言文本嵌入模型，支持超过70种语言，适用于句子相似度计算和特征提取任务。

文本嵌入支持多种语言

Granite 4.0 Tiny Base Preview

Granite-4.0-Tiny-Base-Preview 是IBM开发的70亿参数混合专家(MoE)语言模型，具有128k token上下文窗口，采用Mamba-2技术增强表达能力。

大型语言模型

Qwen3 30B A3B GGUF

Qwen3是阿里云开发的最新大语言模型系列，支持思维模式与非思维模式动态切换，在推理、多语言支持和智能体能力方面表现突出。

大型语言模型英语

Qwen3 0.6B Base

Qwen3-0.6B-Base是通义千问系列的最新一代大语言模型，提供了一系列密集模型和混合专家（MoE）模型。

大型语言模型

Qwen3 30B A3B GGUF

由Qwen开发的大语言模型，支持131,072 tokens上下文长度，擅长创意写作、角色扮演和多轮对话。

大型语言模型

lmstudio-community

Qwen3 235B A22B GGUF

Qwen团队推出的2350亿参数大语言模型量化版本，支持131k上下文长度和混合专家架构

大型语言模型

lmstudio-community

Qwen3 235B A22B

Qwen3是通义千问系列大语言模型的最新版本，提供稠密模型与混合专家（MoE）模型的完整套件，在推理、指令遵循、智能体能力和多语言支持方面实现突破性进展。

大型语言模型

Qwen3是通义千问系列大语言模型的最新版本，提供完整的稠密模型与混合专家(MoE)模型组合。基于大规模训练，Qwen3在推理能力、指令遵循、智能体功能和多语言支持方面实现突破性进展。

大型语言模型

MAI-DS-R1 是 DeepSeek-R1 推理模型，经过微软 AI 团队的后续训练，以提升其在受限话题上的响应能力并优化其风险表现，同时保持其推理能力和竞争性能。

大型语言模型

Llama3.1 MOE 4X8B Gated IQ Multi Tier COGITO Deep Reasoning 32B GGUF

一个具备可调节推理能力的混合专家(MoE)模型，通过4个8B模型的协作实现增强推理和文本生成能力

大型语言模型支持多种语言

Llama 4 Scout 17B 16E Instruct INT4

Llama 4系列是Meta推出的原生多模态AI模型，采用混合专家架构，支持文本和图像交互，在多种语言和视觉任务中表现卓越。

多模态融合

Transformers 支持多种语言

Llama 4 Scout 17B 16E Instruct FP8

Llama 4系列是Meta推出的原生多模态AI模型，支持文本和图像交互，采用混合专家架构，在文本和图像理解方面表现卓越。

多模态融合

Transformers 支持多种语言

MAI-DS-R1是微软AI团队对DeepSeek-R1推理模型进行后训练的成果，旨在提升其对敏感话题的响应能力并优化风险表现，同时保持原有推理能力和竞争优势。

大型语言模型

Debiased Llama 4 Scout 17B 16E Instruct

Llama 4 Scout是Meta推出的原生多模态AI模型，支持多语言文本和图像理解，采用混合专家架构，在文本和图像理解方面具有行业领先性能。

文本生成图像

Transformers 支持多种语言

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16

羊驼4 Scout是Meta发布的170亿参数混合专家模型(MoE)，支持多语言文本和图像理解，采用线性化专家模块设计便于PEFT/LoRA兼容。

多模态融合

Transformers 支持多种语言

Llama 4 Scout 17B 16E Unsloth

Llama 4 Scout是Meta推出的170亿参数多模态AI模型，采用混合专家架构，支持12种语言和图像理解。

文本生成图像

Transformers 支持多种语言

Llama 4 Maverick 17B 128E

Llama 4 Maverick是Meta开发的多模态AI模型，采用混合专家架构，支持文本和图像理解，具有170亿激活参数和4000亿总参数。

文本生成图像

Transformers 支持多种语言

Llama 4 Maverick 17B 128E Instruct

Llama 4 Maverick是Meta推出的170亿参数多模态AI模型，采用混合专家架构(MoE)，支持多语言文本和图像理解，具备128个专家模块。

大型语言模型

Transformers 支持多种语言

Deepseek V3 0324 GGUF

DeepSeek-V3-0324 是 DeepSeek 团队发布的 3 月更新版本，相比前代在多个基准测试上有显著提升，支持动态量化版本，适用于本地推理。

大型语言模型英语

Llm Jp 3 8x13b Instruct3

由日本国立信息学研究所开发的大规模日语-英语混合MoE语言模型，支持8x13B参数规模，经过指令微调优化

大型语言模型

Transformers 支持多种语言

Nomic Embed Text V2 Moe Unsupervised

这是一个多语言混合专家(MoE)文本嵌入模型的中间版本，经过多阶段对比训练得到

DeepSeek-R1是深度求索推出的第一代推理模型，通过大规模强化学习训练，在数学、代码和推理任务上表现优异。

大型语言模型

Falcon3 MoE 2x7B Insruct

Falcon3 7B-IT 与 7B-IT 的混合专家模型，具有134亿参数，支持英语、法语、西班牙语、葡萄牙语四种语言，上下文长度最高可达32K。

大型语言模型

Safetensors 英语

Tanuki 8x8B Dpo V1.0

Tanuki-8x8B是从零开始预训练的大规模语言模型，通过SFT和DPO针对对话任务进行了优化

大型语言模型

Transformers 支持多种语言

Norwai Mixtral 8x7B Instruct

基于NorwAI-Mixtral-8x7B进行指令调优的挪威语大语言模型，使用约9000条高质量挪威语指令优化

大型语言模型

通义千问Qwen2系列的大语言模型，包含多个参数规模的模型，从5亿到720亿参数，支持指令调优。

大型语言模型

Karakuri Lm 8x7b Chat V0.1

由KARAKURI公司开发的专家混合模型(MoE)，支持英语和日语对话，基于Swallow-MX-8x7b-NVE-v0.1微调

大型语言模型

Transformers 支持多种语言

Mixtral 8x22B V0.1 GGUF

Mixtral 8x22B是由MistralAI发布的1760亿参数混合专家模型，支持多语言文本生成任务。

大型语言模型支持多种语言

LOLA是基于稀疏混合专家(Mixture-of-Experts)Transformer架构、支持160多种语言的超大规模多语言大模型，在自然语言生成与理解任务中具有竞争优势。

大型语言模型

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24