模型简介
模型特点
模型能力
使用案例
🚀 kanana-1.5-8b-instruct-2505 GGUF 模型
具有先进特性的语言模型
📚 详细文档
模型生成详情
此模型使用 llama.cpp 在提交版本 f5cd27b7
时生成。
超低比特量化与 IQ - DynamicGate (1 - 2 比特)
我们最新的量化方法为超低比特模型(1 - 2 比特)引入了 精度自适应量化,经基准测试证明在 Llama - 3 - 8B 上有显著提升。该方法采用特定层策略,在保持极高内存效率的同时保留了精度。
基准测试环境
所有测试均在 Llama - 3 - 8B - Instruct 上进行,使用:
- 标准困惑度评估管道
- 2048 令牌上下文窗口
- 所有量化方法使用相同的提示集
方法
- 动态精度分配:
- 前/后 25% 的层 → IQ4_XS(选定层)
- 中间 50% → IQ2_XXS/IQ3_S(提高效率)
- 关键组件保护:
- 嵌入/输出层使用 Q5_K
- 与标准 1 - 2 比特量化相比,误差传播降低 38%
量化性能比较(Llama - 3 - 8B)
量化方式 | 标准困惑度 (PPL) | DynamicGate 困惑度 (PPL) | ΔPPL | 标准大小 | DG 大小 | Δ大小 | 标准速度 | DG 速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
关键说明:
- PPL = 困惑度(值越低越好)
- ΔPPL = 从标准量化到 DynamicGate 量化的 PPL 变化百分比
- 速度 = 推理时间(CPU avx2,2048 令牌上下文)
- 大小差异反映了混合量化的开销
主要改进:
- IQ1_M 困惑度大幅降低 43.9%(从 27.46 降至 15.41)
- IQ2_S 困惑度降低 36.9%,仅增加 0.2GB 大小
- IQ1_S 尽管是 1 比特量化,但精度仍提高 39.7%
权衡:
- 所有变体的大小增加适中(0.1 - 0.3GB)
- 推理速度相近(差异 < 5%)
使用这些模型的场景
- 将模型装入 GPU 显存
- 内存受限的部署
- 可容忍 1 - 2 比特误差的 CPU 和边缘设备
- 超低比特量化研究
选择合适的模型格式
选择正确的模型格式取决于您的 硬件能力 和 内存限制。
BF16(大脑浮点 16) - 如果有 BF16 加速支持则使用
- 一种 16 位浮点格式,专为 更快的计算 设计,同时保留良好的精度。
- 提供与 FP32 相似的动态范围,但 内存使用更低。
- 如果您的硬件支持 BF16 加速(请检查设备规格),建议使用。
- 与 FP32 相比,适用于 高性能推理 且 内存占用减少。
使用 BF16 的情况:
- 您的硬件具有原生 BF16 支持(例如,较新的 GPU、TPU)。
- 您希望在节省内存的同时获得 更高的精度。
- 您计划将模型 重新量化 为其他格式。
避免使用 BF16 的情况:
- 您的硬件 不支持 BF16(可能会回退到 FP32 并运行较慢)。
- 您需要与缺乏 BF16 优化的旧设备兼容。
F16(浮点 16) - 比 BF16 更广泛支持
- 一种 16 位浮点格式,具有 高精度,但取值范围小于 BF16。
- 适用于大多数支持 FP16 加速 的设备(包括许多 GPU 和一些 CPU)。
- 数值精度略低于 BF16,但通常足以进行推理。
使用 F16 的情况:
- 您的硬件支持 FP16 但不支持 BF16。
- 您需要在 速度、内存使用和准确性 之间取得平衡。
- 您在支持 FP16 计算优化的 GPU 或其他设备上运行。
避免使用 F16 的情况:
- 您的设备缺乏 原生 FP16 支持(可能运行速度比预期慢)。
- 您有内存限制。
量化模型(Q4_K、Q6_K、Q8 等) - 适用于 CPU 和低显存推理
量化可在尽可能保持准确性的同时减小模型大小和内存使用。
- 低比特模型(Q4_K) → 内存使用最少,可能精度较低。
- 高比特模型(Q6_K、Q8_0) → 准确性更好,但需要更多内存。
使用量化模型的情况:
- 您在 CPU 上进行推理,需要优化的模型。
- 您的设备 显存较低,无法加载全精度模型。
- 您希望在保持合理精度的同时减小 内存占用。
避免使用量化模型的情况:
- 您需要 最高精度(全精度模型更适合)。
- 您的硬件有足够的显存支持更高精度的格式(BF16/F16)。
极低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
这些模型针对 极致内存效率 进行了优化,非常适合 低功耗设备 或 大规模部署,其中内存是关键限制因素。
- IQ3_XS:超低比特量化(3 比特),具有 极致内存效率。
- 使用场景:最适合 超低内存设备,即使 Q4_K 也过大的情况。
- 权衡:与高比特量化相比,准确性较低。
- IQ3_S:小块大小,实现 最大内存效率。
- 使用场景:最适合 低内存设备,当 IQ3_XS 过于激进时。
- IQ3_M:中等块大小,准确性优于 IQ3_S。
- 使用场景:适用于 低内存设备,当 IQ3_S 限制较大时。
- Q4_K:4 比特量化,具有 逐块优化 以提高准确性。
- 使用场景:最适合 低内存设备,当 Q6_K 过大时。
- Q4_0:纯 4 比特量化,针对 ARM 设备 进行优化。
- 使用场景:最适合 基于 ARM 的设备 或 低内存环境。
模型格式选择总结表
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳使用场景 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持 BF16 的 GPU/CPU | 减少内存的高速推理 |
F16 | 高 | 高 | 支持 FP16 的设备 | 当 BF16 不可用时的 GPU 推理 |
Q4_K | 中低 | 低 | CPU 或低显存设备 | 内存受限的环境 |
Q6_K | 中等 | 适中 | 内存更多的 CPU | 量化情况下更好的准确性 |
Q8_0 | 高 | 适中 | 有足够显存的 CPU 或 GPU | 量化模型中最佳准确性 |
IQ3_XS | 非常低 | 非常低 | 超低内存设备 | 极致内存效率,准确性低 |
Q4_0 | 低 | 低 | ARM 或低内存设备 | llama.cpp 可针对 ARM 设备优化 |
包含的文件及详情
kanana-1.5-8b-instruct-2505-bf16.gguf
- 模型权重以 BF16 保存。
- 如果您想将模型 重新量化 为不同的格式,请使用此文件。
- 如果您的设备支持 BF16 加速,此文件最佳。
kanana-1.5-8b-instruct-2505-f16.gguf
- 模型权重以 F16 存储。
- 如果您的设备支持 FP16,特别是当 BF16 不可用时,请使用此文件。
kanana-1.5-8b-instruct-2505-bf16-q8_0.gguf
- 输出和嵌入层 保持为 BF16。
- 所有其他层量化为 Q8_0。
- 如果您的设备支持 BF16,并且您想要一个量化版本,请使用此文件。
kanana-1.5-8b-instruct-2505-f16-q8_0.gguf
- 输出和嵌入层 保持为 F16。
- 所有其他层量化为 Q8_0。
kanana-1.5-8b-instruct-2505-q4_k.gguf
- 输出和嵌入层 量化为 Q8_0。
- 所有其他层量化为 Q4_K。
- 适用于 内存有限的 CPU 推理。
kanana-1.5-8b-instruct-2505-q4_k_s.gguf
- 最小的 Q4_K 变体,以牺牲准确性为代价减少内存使用。
- 最适合 极低内存设置。
kanana-1.5-8b-instruct-2505-q6_k.gguf
- 输出和嵌入层 量化为 Q8_0。
- 所有其他层量化为 Q6_K。
kanana-1.5-8b-instruct-2505-q8_0.gguf
- 完全 Q8 量化的模型,以获得更好的准确性。
- 需要 更多内存,但提供更高的精度。
kanana-1.5-8b-instruct-2505-iq3_xs.gguf
- IQ3_XS 量化,针对 极致内存效率 进行优化。
- 最适合 超低内存设备。
kanana-1.5-8b-instruct-2505-iq3_m.gguf
- IQ3_M 量化,提供 中等块大小 以提高准确性。
- 适用于 低内存设备。
kanana-1.5-8b-instruct-2505-q4_0.gguf
- 纯 Q4_0 量化,针对 ARM 设备 进行优化。
- 最适合 低内存环境。
- 若追求更好的准确性,建议选择 IQ4_NL。
测试与合作
如果您发现这些模型有用:
- 请点击“点赞”表示支持!
- 帮助测试 人工智能驱动的网络监控助手 进行 量子就绪安全检查: 免费网络监控工具
测试方法
选择 人工智能助手类型:
TurboLLM
(GPT - 4o - mini)HugLLM
(Hugginface 开源)TestLLM
(仅支持 CPU 的实验版本)
测试内容
正在探索 小型开源模型在人工智能网络监控中的极限,具体包括:
- 针对实时网络服务的 函数调用
- 模型最小化 的同时仍能处理:
- 自动化 Nmap 扫描
- 量子就绪检查
- 网络监控任务
TestLLM - 当前实验模型(llama.cpp 在 2 个 CPU 线程上)
- 零配置设置
- 30 秒加载时间(推理速度慢,但 无 API 成本)
- 寻求帮助! 如果您对边缘设备人工智能感兴趣,让我们一起合作!
其他助手
- TurboLLM - 使用 gpt - 4o - mini 进行:
- 在免费网络监控代理上创建自定义命令处理器以运行 .net 代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试(Nmap/Metasploit)
- 通过登录或 下载集成人工智能助手的免费网络监控代理 获取更多令牌
- HugLLM - 最新的开源模型:
- 在 Hugging Face 推理 API 上运行
示例测试命令
"获取我的网站 SSL 证书信息"
"检查我的服务器是否使用量子安全加密进行通信"
"对我的服务器进行全面的安全审计"
- `"创建一个命令处理器以...(任何你想要的功能)" 注意你需要安装免费网络监控代理才能运行 .net 代码。这是一个非常灵活和强大的功能,请谨慎使用!
相关链接
新闻动态
2025/05/23
:发布关于Kanana 1.5
模型的 博客文章,并发布 HF 模型权重。2025/02/27
:发布 技术报告 和 HF 模型权重。2025/01/10
:发布关于Kanana Nano
模型开发的 博客文章。2024/11/14
:发布关于Kanana
模型开发的博客文章(预训练,后训练)。2024/11/06
:发布关于Kanana
模型开发的 演示视频。
目录
🚀 Kanana 1.5
Kanana 1.5
是 Kanana 模型系列的新版本,相较于之前的版本,在 编码、数学和函数调用能力 方面有显著提升,能够更好地应用于更复杂的实际问题。该新版本现在可以原生处理 长达 32K 个令牌 的输入,使用 YaRN 时可处理多达 128K 个令牌,从而使模型在处理长篇文档或进行长时间对话时保持连贯性。此外,通过 优化的后训练过程,Kanana 1.5 可以进行更自然和准确的对话。
⚠️ 重要提示 预训练和后训练数据均不包含 Kakao 用户数据。
✨ 性能评估
基础模型评估
模型 | MMLU | KMMLU | HAERAE | HumanEval | MBPP | GSM8K |
---|---|---|---|---|---|---|
Kanana - 1.5 - 8B | 64.24 | 48.94 | 82.77 | 61.59 | 57.80 | 63.53 |
Kanana - 8B | 64.22 | 48.30 | 83.41 | 40.24 | 51.40 | 57.09 |
指令模型评估
模型 | MT - Bench | KoMT - Bench | IFEval | HumanEval + | MBPP + | GSM8K (0 - shot) | MATH | MMLU (0 - shot, CoT) | KMMLU (0 - shot, CoT) | FunctionChatBench |
---|---|---|---|---|---|---|---|---|---|---|
Kanana - 1.5 - 8B* | 7.76 | 7.63 | 80.11 | 76.83 | 67.99 | 87.64 | 67.54 | 68.82 | 48.28 | 58.00 |
Kanana - 8B | 7.13 | 6.92 | 76.91 | 62.20 | 43.92 | 79.23 | 37.68 | 66.50 | 47.43 | 17.37 |
⚠️ 重要提示
- 根据 Apache 2.0 许可证发布的模型是基于最新版本进行训练的。
🔧 处理 32K 以上长度的输入
目前,上传到 HuggingFace 的 config.json
配置文件适用于 32,768 个令牌或更少的输入长度。要处理超过此长度的令牌,必须应用 YaRN。通过使用以下参数更新 config.json
,可以应用 YaRN 来处理长达 128K 个令牌的序列:
"rope_scaling": {
"factor": 4.4,
"original_max_position_embeddings": 32768,
"type": "yarn",
"beta_fast": 64,
"beta_slow": 2
},
🤝 贡献者
- 语言模型训练:Yunju Bak、Doohae Jung、Boseop Kim、Nayeon Kim、Hojin Lee、Jaesun Park、Minho Ryu
- 语言模型对齐:Jiyeon Ham、Seungjae Jung、Hyunho Kim、Hyunwoong Ko、Changmin Lee、Daniel Wontae Nam
- 人工智能工程:Youmin Kim、Hyeongju Kim
📄 引用说明
@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
title={Kanana: Compute-efficient Bilingual Language Models},
author={Kanana LLM Team and Yunju Bak and Hojin Lee and Minho Ryu and Jiyeon Ham and Seungjae Jung and Daniel Wontae Nam and Taegyeong Eo and Donghun Lee and Doohae Jung and Boseop Kim and Nayeon Kim and Jaesun Park and Hyunho Kim and Hyunwoong Ko and Changmin Lee and Kyoung-Woon On and Seulye Baeg and Junrae Cho and Sunghee Jung and Jieun Kang and EungGyun Kim and Eunhwa Kim and Byeongil Ko and Daniel Lee and Minchul Lee and Miok Lee and Shinbok Lee and Gaeun Seo},
year={2025},
eprint={2502.18934},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.18934},
}
📞 联系方式
- Kanana LLM 团队技术支持:kanana - llm@kakaocorp.com
- 商务合作联系方式:alpha.k@kakaocorp.com


