license: apache-2.0
license_link: https://huggingface.co/Qwen/Qwen3-235B-A22B-GGUF/blob/main/LICENSE
pipeline_tag: text-generation
base_model: Qwen/Qwen3-235B-A22B
Qwen3-235B-A22B-GGUF
Qwen3核心亮点
Qwen3是通义千问系列大语言模型的最新版本,提供稠密模型与混合专家(MoE)模型的完整套件。基于海量训练数据,Qwen3在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展,主要特性包括:
- 独创性支持思维模式(适用于复杂逻辑推理、数学与编程)与非思维模式(适用于高效通用对话)的单模型无缝切换,确保各类场景下的最优表现
- 显著增强的推理能力,在数学解题、代码生成与常识逻辑推理方面超越前代QwQ(思维模式)与Qwen2.5指令模型(非思维模式)
- 卓越的人类偏好对齐,在创意写作、角色扮演、多轮对话及指令遵循方面表现优异,提供更自然、引人入胜的沉浸式对话体验
- 专业的智能体功能,支持思维与非思维模式下与外部工具的精准集成,在开源模型的复杂智能体任务中保持领先性能
- 支持100+种语言与方言,具备强大的多语言指令遵循与翻译能力
模型概览
Qwen3-235B-A22B核心参数:
-
类型:因果语言模型
-
训练阶段:预训练&后训练
-
参数量:总参数量235B,激活参数量22B
-
非嵌入参数量:234B
-
层数:94
-
注意力头数(GQA):查询头64个,键值头4个
-
专家数量:128
-
激活专家数:8
-
上下文长度:原生支持32,768 tokens,通过YaRN扩展至131,072 tokens
-
量化版本:q4_K_M、q5_0、q5_K_M、q6_K、q8_0
更多技术细节(包括基准测试、硬件需求与推理性能)请参阅我们的博客、GitHub与文档。
快速开始
llama.cpp
详细使用指南请参阅llama.cpp文档。
建议克隆llama.cpp
并按官方指南安装。我们适配最新版llama.cpp,以下演示假设在llama.cpp
仓库目录下操作。
由于克隆仓库效率较低,您可手动下载所需GGUF文件,或使用huggingface-cli
(需pip install huggingface_hub
):
huggingface-cli download Qwen/Qwen3-235B-A22B-GGUF Q4_K_M/Qwen3-235B-A22B-Q4_K_M-00001-of-00005.gguf --local-dir . --local-dir-use-symlinks False
受限于50G单文件上传限制,大文件会被分割为多段。分割文件共享前缀,后缀标注索引。例如Q4_K_M
量化文件:
Qwen3-235B-A22B-Q4_K_M-00001-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00002-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00003-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00004-of-00005.gguf
Qwen3-235B-A22B-Q4_K_M-00005-of-00005.gguf
使用分割文件需先通过llama-gguf-split
合并:
./llama-gguf-split --merge Qwen3-235B-A22B-Q4_K_M-00001-of-00005.gguf Qwen3-235B-A22B-Q4_K_M.gguf
思维模式切换
通过在用户提示或系统消息中添加/think
和/no_think
实现轮次间思维模式切换。多轮对话中模型将遵循最近指令。
多轮对话示例:
> 你是谁 /no_think
<think>
</think>
我是通义千问,由阿里云研发的大规模语言模型。[...]
> "strawberries"里有几个'r'? /think
<think>
好的,用户询问单词"strawberries"中字母'r'的出现次数。[...]
</think>
该单词包含3个字母r。[...]
处理长文本
Qwen3原生支持32,768 tokens上下文长度。当对话总长度(含输入输出)远超此限制时,建议使用RoPE缩放技术。我们已通过YaRN方法验证模型在131,072 tokens长度下的性能。
在llama.cpp
启用YARN:
./llama-cli ... -c 131072 --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
[!注意]
当前主流开源框架均采用静态YaRN实现,缩放因子不随输入长度变化,可能影响短文本性能。
建议仅在处理长文本时启用rope_scaling
配置,并根据需求调整factor
参数。例如典型上下文长度为65,536 tokens时,建议设置factor
为2.0。
[!提示]
阿里云Model Studio端点默认支持动态YaRN,无需额外配置。
最佳实践
推荐配置方案:
-
采样参数:
- 思维模式(
enable_thinking=True
):Temperature=0.6
、TopP=0.95
、TopK=20
、MinP=0
、PresencePenalty=1.5
。禁止使用贪婪解码,否则可能导致性能下降与无限重复
- 非思维模式(
enable_thinking=False
):建议Temperature=0.7
、TopP=0.8
、TopK=20
、MinP=0
、PresencePenalty=1.5
- 量化模型建议设置
presence_penalty=1.5
抑制重复输出。该参数可调范围为0-2,过高值可能导致语言混杂与轻微性能下降
-
充足输出长度:常规查询建议32,768 tokens输出长度。数学/编程竞赛等复杂问题评测时,建议最大输出长度设为38,912 tokens,为模型提供充分响应空间
-
标准化输出格式:基准测试时推荐使用提示词规范输出:
- 数学题:提示词中加入"请逐步推理,并将最终答案用\boxed{}包裹"
- 选择题:添加JSON结构规范响应:"请在
answer
字段中仅显示选项字母,如"answer": "C"
"
-
历史记录排除思维内容:多轮对话中,历史模型输出应仅包含最终结果(已通过Jinja2聊天模板实现)。未使用该模板的框架需开发者自行确保实现该机制
引用
如果我们的工作对您有帮助,欢迎引用:
@misc{qwen3,
title = {Qwen3},
url = {https://qwenlm.github.io/blog/qwen3/},
author = {Qwen Team},
month = {April},
year = {2025}
}