# MoE架构优化

Qwen 3 14b Drama
Apache-2.0
Qwen3-14B-Base是通义系列最新一代的大语言模型,提供了一系列全面的密集模型和专家混合(MoE)模型,在训练数据、模型架构和优化技术等方面取得了显著进展。
大型语言模型 Transformers
Q
float-trip
167
1
Qwen3 235B A22B AWQ
Apache-2.0
Qwen3-235B-A22B-AWQ 是基于 Qwen3-235B-A22B 模型的 AWQ 量化版本,适用于文本生成等自然语言处理任务。
大型语言模型 Transformers
Q
QuixiAI
5,474
12
Qwen3 14B Base
Apache-2.0
Qwen3-14B-Base是通义系列最新一代大语言模型,提供了一套全面的密集和混合专家(MoE)模型,在训练数据、模型架构和优化技术方面有显著改进。
大型语言模型 Transformers
Q
unsloth
4,693
1
Qwen3 8B Base Bnb 4bit
Apache-2.0
Qwen3-8B-Base是Qwen系列最新一代的大语言模型,基于36万亿标记的多语言预训练数据,优化了模型架构和训练技术,提供高效精准的语言交互体验。
大型语言模型 Transformers
Q
unsloth
1,406
1
Qwen3 8B Base Unsloth Bnb 4bit
Apache-2.0
Qwen3-8B-Base是通义系列最新一代大语言模型,提供了一套全面的密集和混合专家(MoE)模型,基于在训练数据、模型架构和优化技术方面的大量改进。
大型语言模型 Transformers
Q
unsloth
6,214
1
Qwen3 1.7B Base
Apache-2.0
Qwen3-1.7B-Base是通义系列最新一代大语言模型,提供了一系列密集模型和专家混合(MoE)模型,在训练数据、模型架构和优化技术等方面进行了大量改进。
大型语言模型 Transformers
Q
unsloth
7,444
2
Qwen3 8B Base
Apache-2.0
Qwen3是通义千问系列最新一代大语言模型,提供完整的稠密模型与混合专家(MoE)模型体系,覆盖119种语言的36万亿token预训练数据。
大型语言模型 Transformers
Q
Qwen
26.79k
26
AIbase
智启未来,您的人工智能解决方案智库
简体中文