语言:
- 英语
- 韩语
库名称: transformers
许可证: apache-2.0
流水线标签: 文本生成
模型ID: kakaocorp/kanana-1.5-8b-instruct-2505
仓库: kakaocorp/kanana-1.5-8b-instruct-2505
开发者: Kanana LLM
训练机制: bf16混合精度
ü§ó 1.5 HF模型   |
  üìï 1.5博客   |
  üìú 技术报告
新闻 üî•
- ‚ú®
2025/05/23
: 发布了关于Kanana 1.5
模型的博客文章并公开了ü§óHF模型权重。
- üìú
2025/02/27
: 发布了技术报告和ü§óHF模型权重。
- üìï
2025/01/10
: 发表了关于Kanana Nano
模型开发的博客文章。
- üìï
2024/11/14
: 发表了关于Kanana
模型开发的博客文章(预训练, 后训练)。
- ▶️
2024/11/06
: 发布了关于Kanana
模型开发的演示视频。
目录
Kanana 1.5
Kanana 1.5
是Kanana模型家族的新版本,在编码、数学和函数调用能力方面相比前代有显著提升,能够应用于更复杂的现实问题。新版本原生支持__32K tokens长度,使用YaRN可扩展至128K tokens__,使模型在处理长文档或进行长对话时保持连贯性。此外,通过__优化的后训练流程__,Kanana 1.5实现了更自然准确的对话。
[!注意]
预训练和后训练数据均不包含Kakao用户数据。
性能
基础模型评估
模型 |
MMLU |
KMMLU |
HAERAE |
HumanEval |
MBPP |
GSM8K |
Kanana-1.5-8B |
64.24 |
48.94 |
82.77 |
61.59 |
57.80 |
63.53 |
Kanana-8B |
64.22 |
48.30 |
83.41 |
40.24 |
51.40 |
57.09 |
指导模型评估
模型 |
MT-Bench |
KoMT-Bench |
IFEval |
HumanEval+ |
MBPP+ |
GSM8K (0-shot) |
MATH |
MMLU (0-shot, CoT) |
KMMLU (0-shot, CoT) |
FunctionChatBench |
Kanana-1.5-8B* |
7.76 |
7.63 |
80.11 |
76.83 |
67.99 |
87.64 |
67.54 |
68.82 |
48.28 |
58.00 |
Kanana-8B |
7.13 |
6.92 |
76.91 |
62.20 |
43.92 |
79.23 |
37.68 |
66.50 |
47.43 |
17.37 |
[!注意]
* 根据Apache 2.0发布的模型相比其他模型训练了最新版本。
处理32K+长度
当前上传到HuggingFace的config.json
配置为处理32,768或更短的token长度。要处理超过此长度的token,必须应用YaRN。通过更新config.json
中的以下参数,可以应用YaRN处理长达128K的token序列:
"rope_scaling": {
"factor": 4.4,
"original_max_position_embeddings": 32768,
"type": "yarn",
"beta_fast": 64,
"beta_slow": 2
},
贡献者
- 语言模型训练: 朴允珠, 郑道海, 金宝燮, 金娜妍, 李浩镇, 朴宰善, 柳旼镐
- 语言模型对齐: 咸智妍, 郑承宰, 金贤浩, 高贤雄, 李昌民, 南元泰
- AI工程: 金有民, 金亨柱
引用
@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
title={Kanana: 计算高效的双语语言模型},
author={Kanana LLM团队和朴允珠和李浩镇和柳旼镐和咸智妍和郑承宰和南元泰和鱼泰京和李东勋和郑道海和金宝燮和金娜妍和朴宰善和金贤浩和高贤雄和李昌民和吴京云和裴秀礼和赵俊来和郑成熙和姜智恩和金恩华和金恩花和高秉日和Daniel Lee和李敏哲和李美玉和李信福和徐佳恩},
year={2025},
eprint={2502.18934},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.18934},
}
联系方式
- Kanana LLM团队技术支持: kanana-llm@kakaocorp.com
- 业务与合作联系: alpha.k@kakaocorp.com