Kanana是由Kakao开发的双语(韩语/英语)语言模型系列,在韩语任务上表现卓越,在英语任务上具备竞争力,相比同规模模型显著降低计算成本。
下载量 7,722
发布时间 : 2/26/2025
模型介绍
内容详情
替代品
模型简介
Kanana系列双语语言模型,参数规模从21亿到325亿不等,公开发布21亿参数版本(含基础版、指令版、嵌入版、函数调用版和RAG版),特别优化韩语任务性能。
模型特点
高效韩语处理
相比同规模模型显著提升韩语任务性能,计算成本更低
多版本适配
提供基础版、指令版、嵌入版、函数调用版和RAG版,适应不同应用场景
高效训练技术
采用高质量数据过滤、分阶段预训练、深度扩展、剪枝与蒸馏等技术
模型能力
韩语文本生成
英语文本理解
指令跟随
问答系统
检索增强生成(RAG)
函数调用
使用案例
智能助手
韩语客服机器人
用于处理韩语客户咨询
在韩语任务上表现优于同规模模型
内容生成
韩语内容创作
生成符合韩语习惯的营销文案
语言:
- 英文
- 韩文 库名称: transformers 许可证: cc-by-nc-4.0 流水线标签: 文本生成 模型ID: kakaocorp/kanana-nano-2.1b-embedding 仓库: kakaocorp/kanana-nano-2.1b-embedding 开发者: Kanana LLM 训练机制: bf16混合精度
Kanana
🤗 模型   |   📕 博客   |   📜 技术报告 |   💻 Github
简介
我们推出Kanana系列双语语言模型(由Kakao开发),在韩语表现卓越,英语表现具有竞争力。Kanana的计算成本显著低于同类规模的顶尖模型。报告详细介绍了预训练阶段采用的技术,包括高质量数据过滤、分阶段预训练、深度扩展、剪枝与蒸馏,以实现计算高效且具竞争力的模型。此外,报告概述了Kanana模型后训练阶段的方法论,涵盖监督微调与偏好优化,旨在增强其与用户无缝交互的能力。最后,报告阐述了语言模型适应特定场景的可行方法,如嵌入、函数调用和检索增强生成(RAG)。Kanana模型系列参数规模从21亿到325亿不等,其中21亿参数模型(基础版、指令版、嵌入版、函数调用版和RAG版)已公开发布,以促进韩语语言模型的研究。
[!注意] 预训练和后训练数据均不包含Kakao用户数据。
目录
新闻
- 📜
2025/02/27
: 发布技术报告和🤗HF模型权重。 - 📕
2025/01/10
: 发布关于Kanana-Nano
模型开发的博客文章。(Kanana-Nano) - 📕
2024/11/14
: 发布关于Kanana
模型开发的博客文章。(Kanana LLM: 预训练, Kanana LLM: 后训练) - ▶️
2024/11/06
: 发布关于Kanana
模型开发的演示视频。(if(kakaoAI)2024)
性能
以下是Kanana
模型系列的部分性能报告。完整结果请参阅技术报告。
预训练模型性能
模型 | MMLU | KMMLU | HAERAE | HumanEval | MBPP | GSM8K | |
---|---|---|---|---|---|---|---|
270亿+规模 | |||||||
Kanana-Flag-32.5b | 77.68 | 62.10 | 90.47 | 51.22 | 63.40 | 70.05 | |
Qwen2.5-32b | 83.10 | 63.15 | 75.16 | 50.00 | 73.40 | 82.41 | |
Gemma-2-27b | 75.45 | 51.16 | 69.11 | 51.22 | 64.60 | 74.37 | |
EXAONE-3.5-32b | 72.68 | 46.36 | 82.22 | - | - | - | |
Aya-Expanse-32b | 74.52 | 49.57 | 80.66 | - | - | - | |
70亿+规模 | |||||||
Kanana-Essence-9.8b | 67.61 | 50.57 | 84.98 | 40.24 | 53.60 | 63.61 | |
Llama-3.1-8b | 65.18 | 41.02 | 61.78 | 35.37 | 48.60 | 50.87 | |
Qwen2.5-7b | 74.19 | 51.68 | 67.46 | 56.71 | 63.20 | 83.85 | |
Gemma-2-9b | 70.34 | 48.18 | 66.18 | 37.20 | 53.60 | 68.16 | |
EXAONE-3.5-7.8b | 65.36 | 45.30 | 77.54 | - | - | - | |
Aya-Expanse-8b | 62.52 | 40.11 | 71.95 | - | - | - | |
20亿+规模 | |||||||
Kanana-Nano-2.1b | 54.83 | 44.80 | 77.09 | 31.10 | 46.20 | 46.32 | |
Llama-3.2-3b | 56.40 | 35.57 | 47.66 | 25.61 | 39.00 | 27.37 | |
Qwen2.5-3b | 65.57 | 45.28 | 61.32 | 37.80 | 55.60 | 69.07 | |
Gemma-2-2b | 52.89 | 30.67 | 45.55 | 20.12 | 28.20 | 24.72 | |
EXAONE-3.5-2.4b | 59.27 | 43.58 | 69.65 | - | - | - | |
700亿+规模 | |||||||
Llama-3.1-70b | 78.93 | 53.00 | 76.35 | 57.32 | 66.60 | 81.73 | |
Qwen2.5-72b | 86.12 | 68.57 | 80.84 | 55.49 | 76.40 | 92.04 |