许可证:Apache-2.0
支持语言:
基础模型:
- deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
任务类型:文本生成
库依赖:transformers
FairyR1-32B GGUF模型集
模型生成细节
本模型基于llama.cpp(提交版本f5cd27b7
生成。
IQ-DynamicGate超低位量化(1-2比特)
我们最新的量化方法引入了精度自适应量化技术,专为超低位模型(1-2比特)设计,并在Llama-3-8B上通过基准测试验证了其有效性。该方法采用分层策略,在保持极致内存效率的同时保障精度。
测试环境
所有测试均在Llama-3-8B-Instruct上完成:
- 标准困惑度评估流程
- 2048词符上下文窗口
- 所有量化版本使用相同提示集
技术方案
- 动态精度分配:
- 首尾25%层 → IQ4_XS(选定层)
- 中间50%层 → IQ2_XXS/IQ3_S(提升效率)
- 关键组件保护:
- 嵌入层/输出层使用Q5_K
- 相比标准1-2比特量化减少38%误差传播
量化性能对比(Llama-3-8B)
量化类型 |
标准PPL |
DynamicGate PPL |
差异PPL |
标准体积 |
DG体积 |
体积差 |
标准速度 |
DG速度 |
IQ2_XXS |
11.30 |
9.84 |
-12.9% |
2.5G |
2.6G |
+0.1G |
234s |
246s |
IQ2_XS |
11.72 |
11.63 |
-0.8% |
2.7G |
2.8G |
+0.1G |
242s |
246s |
IQ2_S |
14.31 |
9.02 |
-36.9% |
2.7G |
2.9G |
+0.2G |
238s |
244s |
IQ1_M |
27.46 |
15.41 |
-43.9% |
2.2G |
2.5G |
+0.3G |
206s |
212s |
IQ1_S |
53.07 |
32.00 |
-39.7% |
2.1G |
2.4G |
+0.3G |
184s |
209s |
关键指标说明:
- PPL = 困惑度(数值越低越好)
- 差异PPL = 相比标准量化的百分比变化
- 速度 = 推理耗时(CPU avx2,2048词符上下文)
- 体积差异反映混合量化开销
核心优势:
- üî• IQ1_M实现43.9%困惑度降低(27.46→15.41)
- üöÄ IQ2_S在仅增加0.2GB体积下降低36.9%困惑度
- ‚ö° IQ1_S在1比特量化下仍保持39.7%精度优势
权衡因素:
- 所有变体均有轻微体积增加(0.1-0.3GB)
- 推理速度差异可控(<5%)
适用场景
üìå GPU显存受限场景
‚úî 内存敏感型部署
‚úî 可容忍1-2比特误差的CPU/边缘设备
‚úî 超低位量化研究
模型格式选择指南
根据硬件能力与内存限制选择合适格式:
BF16(脑浮点16位)——支持BF16加速时首选
- 专为快速计算设计的16位浮点格式
- 保持FP32级动态范围的同时降低内存占用
- 需硬件支持BF16加速(请确认设备规格)
- 高性能推理场景的理想选择
üìå 适用场景:
‚úî 设备支持原生BF16(如新型GPU/TPU)
‚úî 需平衡精度与内存占用
‚úî 计划后续再量化
üìå 规避场景:
‚ùå 设备不支持BF16(可能回退至FP32导致降速)
‚ùå 需兼容老旧设备
F16(浮点16位)——通用性优于BF16
- 16位浮点格式,精度较高但动态范围略小于BF16
- 广泛支持FP16加速设备(包括多数GPU和部分CPU)
üìå 适用场景:
‚úî 设备支持FP16但不支持BF16
‚úî 需要速度-内存-精度平衡
‚úî GPU环境推理
üìå 规避场景:
‚ùå 缺乏原生FP16支持
‚ùå 内存极度受限
量化模型(Q4_K/Q6_K/Q8等)——CPU&低显存方案
通过量化在精度与效率间取得平衡:
- 低位模型(Q4_K) → 极致内存优化,精度有所牺牲
- 高位模型(Q6_K/Q8_0) → 更好精度,需更多内存
üìå 适用场景:
‚úî CPU推理优化
‚úî 设备显存不足加载全精度模型
‚úî 需降低内存占用
üìå 规避场景:
‚ùå 需求最高精度
‚ùå 硬件具备充足显存
超低位量化(IQ3_XS/IQ3_S/IQ3_M/Q4_K/Q4_0)
专为极致内存效率设计,适合低功耗设备或大规模部署:
-
IQ3_XS:3比特极致压缩
- 适用:Q4_K仍显臃肿的超低内存设备
- 代价:精度显著降低
-
IQ3_S:小分块内存优化
-
IQ3_M:中分块精度提升
-
Q4_K:4比特分块优化
-
Q4_0:纯4比特ARM优化
模型格式速查表
格式 |
精度 |
内存占用 |
硬件要求 |
最佳场景 |
BF16 |
极高 |
较高 |
支持BF16的GPU/CPU |
高速推理兼顾内存 |
F16 |
高 |
较高 |
支持FP16的设备 |
BF16不可用时的GPU推理 |
Q4_K |
中低 |
低 |
CPU/低显存设备 |
内存严格受限环境 |
Q6_K |
中 |
中等 |
大内存CPU |
量化模型中的精度优选 |
Q8_0 |
高 |
中等 |
充足显存的CPU/GPU |
量化模型的最高精度 |
IQ3_XS |
极低 |
极低 |
超低内存设备 |
内存效率优先 |
Q4_0 |
低 |
低 |
ARM设备 |
llama.cpp的ARM优化 |
文件清单及说明
FairyR1-32B-bf16.gguf
- BF16格式原始权重
- 适用于再量化或支持BF16加速的设备
FairyR1-32B-f16.gguf
FairyR1-32B-bf16-q8_0.gguf
FairyR1-32B-f16-q8_0.gguf
FairyR1-32B-q4_k.gguf
- 输出/嵌入层Q8_0
- 其余层Q4_K量化
- CPU低内存推理优选
FairyR1-32B-q4_k_s.gguf
FairyR1-32B-q6_k.gguf
FairyR1-32B-q8_0.gguf
FairyR1-32B-iq3_xs.gguf
FairyR1-32B-iq3_m.gguf
FairyR1-32B-q4_0.gguf
üöÄ 如果觉得这些模型有用
‚ù§ 请点击"点赞"支持!
欢迎测试我的AI网络监控助手(含量子安全检测功能):
üëâ 免费网络监控平台
üí¨ 测试方法:
选择AI助手类型:
TurboLLM
(GPT-4o-mini内核)
HugLLM
(HuggingFace开源模型)
TestLLM
(实验性CPU专属)
测试目标
探索小型开源模型在网络监控中的极限能力:
- 针对实时网络服务的函数调用
- 模型最小化边界测试:
- 自动化Nmap扫描
- 量子安全检测
- 网络监控任务执行
üü° TestLLM当前实验特性(2线程CPU运行):
- ‚úÖ 零配置部署
- ‚è≥ 30秒加载(推理较慢但无API成本)
- üîß 诚邀合作!如果您专注边缘设备AI,欢迎联系!
其他助手
üü¢ TurboLLM基于gpt-4o-mini:
- 创建自定义CMD处理器运行.net代码
- 实时网络诊断
- 安全审计
- 渗透测试(Nmap/Metasploit)
- üîë 登录或下载集成AI助手的免费监控代理获取更多token
üîµ HugLLM最新开源模型:
- üåê 运行于Hugging Face推理API
üí° 测试命令示例:
"获取网站SSL证书信息"
"检测服务器是否使用量子安全加密"
"执行服务器全面安全审计"
"创建CMD处理器用于..."
(需安装免费监控代理执行.net代码)
欢迎使用北大DS-LAB打造的FairyR1-32B!
评测项目 |
DeepSeek-R1-671B |
DeepSeek-R1-Distill-Qwen-32B |
FairyR1-32B (北大) |
AIME 2024 (数学) |
79.8 |
72.6 |
80.4 |
AIME 2025 (数学) |
70.0 |
52.9 |
75.6 |
LiveCodeBench (编程) |
65.9 |
57.2 |
67.7 |
GPQA-Diamond (科学QA) |
71.5 |
62.1 |
60.0 |
模型介绍
FairyR1-32B作为高效大语言模型,在特定任务上以约5%参数量达到或超越大模型表现。基于DeepSeek-R1-Distill-Qwen-32B,采用"蒸馏-融合"创新流程,通过任务精调与模型融合技术实现高性能与低成本推理的平衡。本项目受国家自然科学基金(编号624B2005)资助。
技术细节
本模型延续TinyR1的"分支-融合蒸馏"框架,在数据处理和架构层面进行升级:
-
数据流程革新:
- 原始数据来自AI-MO/NuminaMath-1.5(数学)和OpenThoughts-114k(编程)
- 经多教师模型生成候选答案后严格筛选重构(特别优化思维链)
- 数学样本经正确性验证(2K-8K词符),代码样本长度筛选(4K-8K词符)
- 最终获得6.6K数学样本与3.8K编程样本
-
建模优化:
- 仅训练数学/编程两个领域专家(同参数训练5轮)
- 使用AcreeFusion工具融合为32B单一模型
- 总训练耗时:数学2.5小时 + 编程1.5小时(32×H100)
- CPU融合耗时约40分钟
结果分析与创新价值:
测试显示FairyR1在AIME¬†2025和LiveCodeBench略超DeepSeek-R1-671B,AIME¬†2024表现持平。这表明:
- 基于DeepSeek‚ÄëR1‚ÄëDistill‚ÄëQwen‚Äë32B的定向优化
- 以5%参数量实现数学/编程领域可比甚至更优表现
- 科学QA等领域仍存在提升空间
本工作证明了通过数据优化与模型融合,可在显著降低参数量与推理成本的同时保持任务特异性性能。
模型规格
- 开发团队:北大DS-LAB
- 模型类型:推理模型
- 支持语言:中英文
- 许可证:apache-2.0
- 基础模型:DeepSeek-R1-Distill-Qwen-32B
训练数据
- 数学:6.6K思维链样本(AI-MO/NuminaMath-1.5默认子集)
- 编程:3.8K思维链样本(OpenThoughts-114k编程子集)
硬件配置
- 硬件类型:32×NVIDIA-H100
- 数学训练耗时:2.5小时
- 编程训练耗时:1.5小时
- 模型融合:约40分钟(纯CPU)
评测集
- AIME 2024/2025(数学):32次平均准确率(2024含30题,2025含I/II卷共30题)
- LiveCodeBench(编程):8次平均准确率(v5版本含279题,时间范围2024-08至2025-02)
- GPQA-Diamond(科学QA):8次平均准确率(198题)
FairyR1系列研发团队:
项目领导:
杨潼
核心成员:
王力;周俊廷;刘文瑞;姚轶伦;王荣乐
模型卡联系
详情咨询:yangtong@pku.edu.cn