Kanana 1.5-8b-instruct-2505-GGUF开源模型 - 编码数学强，长输入处理超给力

首页

Kanana 1.5 8b Instruct 2505 GGUF

由 Mungert 开发

Kanana 1.5 是 Kanana 模型系列的新版本，在编码、数学和函数调用能力方面有显著提升，能够处理长达32K个令牌的输入，使用YaRN时可处理多达128K个令牌。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #超低比特量化 #32K长文本处理 #韩英双语优化

下载量 606

发布时间 : 5/30/2025

模型简介

具有先进特性的语言模型，适用于复杂实际问题处理，支持超低比特量化与精度自适应量化。

模型特点

超低比特量化

支持1-2比特量化，采用精度自适应量化方法，在保持内存效率的同时提升精度

长上下文处理

原生支持32K令牌上下文，使用YaRN扩展后可处理128K令牌

动态精度分配

不同层采用不同量化策略，前/后25%层使用IQ4_XS，中间50%层使用IQ2_XXS/IQ3_S

关键组件保护

嵌入/输出层使用Q5_K保护，降低误差传播38%

模型能力

文本生成

指令跟随

函数调用

代码生成

数学推理

长文档处理

网络监控分析

安全审计

使用案例

网络监控与安全

SSL证书检查

检查网站的SSL证书信息

提供详细的证书信息和安全评估

量子安全加密检查

验证服务器是否使用量子安全加密

识别潜在的加密漏洞

安全审计

对服务器进行全面的安全审计

生成详细的安全报告

开发辅助

代码生成

根据描述生成功能代码

可生成多种编程语言的代码片段

命令处理器创建

创建自定义命令处理器以运行.net代码

实现特定功能的自动化处理

🚀 kanana-1.5-8b-instruct-2505 GGUF模型

kanana-1.5-8b-instruct-2505 GGUF 模型是Kanana模型家族的新成员，在编码、数学和函数调用能力方面有显著提升，能处理长达32K甚至128K的token，适用于复杂的实际问题和长文本处理。

🚀 快速开始

本项目提供了多种格式的 kanana-1.5-8b-instruct-2505 模型，你可以根据自身硬件能力和内存限制选择合适的模型格式进行使用。

✨ 主要特性

性能提升：相比之前版本，在编码、数学和函数调用能力上有显著增强。
长文本处理：原生支持处理长达32K的token，使用YaRN可处理长达128K的token。
对话优化：通过精细的后训练过程，实现更自然、准确的对话。

📦 安装指南

文档未提及具体安装步骤，可根据所选模型格式和自身硬件情况，参考相关框架和工具的文档进行安装。

💻 使用示例

文档未提供代码示例，你可以根据模型的应用场景，结合相关框架和工具编写代码进行使用。

📚 详细文档

模型生成细节

本模型使用 llama.cpp 在提交版本 f5cd27b7 时生成。

超低比特量化（IQ-DynamicGate，1 - 2比特）

我们最新的量化方法为超低比特模型（1 - 2比特）引入了精度自适应量化，经基准测试证明，在 Llama-3-8B 上有显著改进。该方法采用特定层策略，在保持极高内存效率的同时保留准确性。

基准测试环境：所有测试均在 Llama-3-8B-Instruct 上进行，使用标准困惑度评估管道、2048-token上下文窗口，并在所有量化中使用相同的提示集。
方法
- 动态精度分配：前/后25%的层采用IQ4_XS（选定层），中间50%采用IQ2_XXS/IQ3_S（提高效率）。
- 关键组件保护：嵌入层/输出层使用Q5_K，与标准1 - 2比特量化相比，误差传播降低38%。
量化性能对比（Llama-3-8B）

量化方式	标准困惑度（PPL）	DynamicGate困惑度（PPL）	PPL变化率	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键说明：

PPL = 困惑度（越低越好）
∆ PPL = 从标准量化到DynamicGate量化的变化百分比
速度 = 推理时间（CPU avx2，2048 token上下文）
大小差异反映混合量化开销

主要改进：

IQ1_M 困惑度大幅降低43.9%（从27.46降至15.41）
IQ2_S 困惑度降低36.9%，仅增加0.2GB
IQ1_S 尽管是1比特量化，但精度仍提高39.7%

权衡：

所有变体的大小均有适度增加（0.1 - 0.3GB）
推理速度相当（差异<5%）

何时使用这些模型

适配GPU显存
内存受限的部署
可容忍1 - 2比特误差的CPU和边缘设备
超低比特量化研究

选择合适的模型格式

选择正确的模型格式取决于你的硬件能力和内存限制。

模型格式	精度	内存使用	设备要求	最佳使用场景
BF16	最高	高	支持BF16的GPU/CPU	高速推理，同时减少内存使用
F16	高	高	支持FP16的设备	当BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	内存受限环境的最佳选择
Q6_K	中	中等	内存较多的CPU	量化模型中精度较好的选择
Q8_0	高	中等	有足够显存的CPU或GPU	量化模型中精度最高的选择
IQ3_XS	极低	极低	超低内存设备	极致内存效率，低精度
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备进行优化

包含的文件及详情

kanana-1.5-8b-instruct-2505-bf16.gguf：模型权重保存为 BF16 格式。如果你想将模型重新量化为其他格式，或者设备支持 BF16加速，可使用此文件。
kanana-1.5-8b-instruct-2505-f16.gguf：模型权重保存为 F16 格式。如果你的设备支持 FP16，尤其是在BF16不可用时，可使用此文件。
kanana-1.5-8b-instruct-2505-bf16-q8_0.gguf：输出和嵌入层 保持为 BF16 格式，其他层量化为 Q8_0。如果你的设备支持 BF16 且需要量化版本，可使用此文件。
kanana-1.5-8b-instruct-2505-f16-q8_0.gguf：输出和嵌入层 保持为 F16 格式，其他层量化为 Q8_0。
kanana-1.5-8b-instruct-2505-q4_k.gguf：输出和嵌入层 量化为 Q8_0，其他层量化为 Q4_K。适合内存有限的 CPU推理。
kanana-1.5-8b-instruct-2505-q4_k_s.gguf：最小的 Q4_K 变体，以牺牲精度为代价减少内存使用。适合 极低内存设置。
kanana-1.5-8b-instruct-2505-q6_k.gguf：输出和嵌入层 量化为 Q8_0，其他层量化为 Q6_K。
kanana-1.5-8b-instruct-2505-q8_0.gguf：完全 Q8 量化的模型，精度更高，但需要 更多内存。
kanana-1.5-8b-instruct-2505-iq3_xs.gguf：IQ3_XS 量化，针对 极致内存效率 进行优化。适合 超低内存设备。
kanana-1.5-8b-instruct-2505-iq3_m.gguf：IQ3_M 量化，提供 中等块大小 以提高精度。适合 低内存设备。
kanana-1.5-8b-instruct-2505-q4_0.gguf：纯 Q4_0 量化，针对 ARM设备 进行优化。适合 低内存环境，若需要更高精度，建议使用IQ4_NL。

测试模型

如果你觉得这些模型有用，请点击“点赞”！同时，帮助测试 AI网络监控助手 的 量子就绪安全检查：免费网络监控。

测试方法：选择一个 AI助手类型：
- TurboLLM (GPT-4o-mini)
- HugLLM (Hugginface开源)
- TestLLM (仅支持CPU的实验性模型)

测试内容

我正在挑战小型开源模型在AI网络监控中的极限，具体包括：

针对实时网络服务进行 函数调用
探索模型在处理以下任务时的最小规模：
- 自动 Nmap扫描
- 量子就绪检查
- 网络监控任务

各助手特点

TestLLM：当前的实验性模型（llama.cpp，2个CPU线程）
- 零配置设置
- 加载时间约30秒（推理速度慢，但 无API成本）
- 寻求帮助：如果你对边缘设备AI感兴趣，欢迎合作！
TurboLLM：使用 gpt-4o-mini 进行以下操作：
- 创建自定义命令处理器，在免费网络监控代理上运行 .net 代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试（Nmap/Metasploit）
- 通过登录或下载集成AI助手的免费网络监控代理获取更多token
HugLLM：最新的开源模型，在Hugging Face推理API上运行

示例命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注意：你需要安装免费网络监控代理才能运行 .net 代码，这是一个非常灵活和强大的功能，请谨慎使用！

新闻动态

2025/05/23：发布关于 Kanana 1.5 模型的博客文章，并发布 HF模型权重。
2025/02/27：发布技术报告和 HF模型权重。
2025/01/10：发布关于 Kanana Nano 模型开发的博客文章。
2024/11/14：发布关于 Kanana 模型开发的博客文章（预训练，后训练）。
2024/11/06：发布关于 Kanana 模型开发的演示视频。

Kanana 1.5模型介绍

Kanana 1.5 是Kanana模型家族的新版本，相比之前版本，在 编码、数学和函数调用能力 方面有显著提升，能够处理更复杂的实际问题。该版本原生支持处理长达32K的token，使用YaRN可处理长达128K的token，在处理长篇文档或进行长时间对话时能保持连贯性。此外，通过精细的后训练过程，Kanana 1.5的对话更加自然、准确。

性能评估

基础模型评估

模型	MMLU	KMMLU	HAERAE	HumanEval	MBPP	GSM8K
Kanana-1.5-8B	64.24	48.94	82.77	61.59	57.80	63.53
Kanana-8B	64.22	48.30	83.41	40.24	51.40	57.09

指令模型评估

模型	MT-Bench	KoMT-Bench	IFEval	HumanEval+	MBPP+	GSM8K (0-shot)	MATH	MMLU (0-shot, CoT)	KMMLU (0-shot, CoT)	FunctionChatBench
Kanana-1.5-8B*	7.76	7.63	80.11	76.83	67.99	87.64	67.54	68.82	48.28	58.00
Kanana-8B	7.13	6.92	76.91	62.20	43.92	79.23	37.68	66.50	47.43	17.37

⚠️ 重要提示

基于Apache 2.0许可发布的模型是在最新版本上进行训练的。

💡 使用建议

可根据不同模型在各项评估中的表现，结合自身需求选择合适的模型。

处理32K以上长度的文本

目前上传到HuggingFace的 config.json 配置为处理32,768个token或更少。若要处理更长的token序列，需应用YaRN。通过将以下参数更新到 config.json 中，可使用YaRN处理长达128K的token序列：

"rope_scaling": {
    "factor": 4.4,
    "original_max_position_embeddings": 32768,
    "type": "yarn",
    "beta_fast": 64,
    "beta_slow": 2
},

🔧 技术细节

贡献者

语言模型训练：Yunju Bak, Doohae Jung, Boseop Kim, Nayeon Kim, Hojin Lee, Jaesun Park, Minho Ryu
语言模型对齐：Jiyeon Ham, Seungjae Jung, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Daniel Wontae Nam
AI工程：Youmin Kim, Hyeongju Kim

引用

@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
      title={Kanana: Compute-efficient Bilingual Language Models}, 
      author={Kanana LLM Team and Yunju Bak and Hojin Lee and Minho Ryu and Jiyeon Ham and Seungjae Jung and Daniel Wontae Nam and Taegyeong Eo and Donghun Lee and Doohae Jung and Boseop Kim and Nayeon Kim and Jaesun Park and Hyunho Kim and Hyunwoong Ko and Changmin Lee and Kyoung-Woon On and Seulye Baeg and Junrae Cho and Sunghee Jung and Jieun Kang and EungGyun Kim and Eunhwa Kim and Byeongil Ko and Daniel Lee and Minchul Lee and Miok Lee and Shinbok Lee and Gaeun Seo},
      year={2025},
      eprint={2502.18934},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.18934}, 
}