语言:
- 英语
- 韩语
许可证: cc-by-nc-4.0
标签:
- dnotitia
- 自然语言处理
- 大语言模型
- 小语言模型
- 对话
- 聊天
- 推理
- r1
基础模型:
- microsoft/phi-4
库名称: transformers
流水线标签: 文本生成
DNA-R1
我们推出DNA-R1,这是一款基于微软Phi-4优化的韩语专用推理模型。通过采用与DeepSeek-R1相同的大规模强化学习(RL)方法,我们显著提升了模型的韩语推理能力。该模型展现出对韩语文本的深刻理解,并在数学、编程和通用推理任务中表现出卓越的推理能力。
训练方法
我们的综合训练流程包含三个战略阶段:
- 阶段1: 使用来自DNA 1.0 8B Instruct训练流程的大规模韩语非推理数据集(76万例)进行初始监督微调(SFT)
- 阶段2: 通过专门的韩语推理数据集(30万例)战略性地整合DeepSeek R1的推理模式
- 阶段3: 使用GRPO进行高级强化学习,结合韩语/英语推理数据集,以格式、准确性和语言一致性作为奖励信号
DNA-R1学习了专门为韩语设计的推理模式,并展现出自我验证、反思和生成长链思维(CoT)等能力。这标志着韩语环境中AI研究社区的一个重要里程碑。
模型规格
- 开发团队: Dnotitia Inc.
- 支持语言: 韩语、英语
- 模型发布日期: 2025年3月6日
- 参数数量: 140亿
- 许可证: CC BY-NC 4.0
注意事项(韩语):
本模型可用于商业目的。如需商业使用,请通过Dnotitia官网的联系我们页面进行咨询。经过简单的协商流程后,我们将批准您的商业使用申请。
技术细节
多阶段训练流程
我们采用复杂的训练方法增强Phi-4的韩语推理能力:
- 基础阶段(阶段1): 使用来自成熟DNA 1.0 8B Instruct训练流程的广泛韩语非推理数据集进行监督微调
- 推理整合(阶段2): 通过精心策划的数据集,专门优化DeepSeek R1的推理模式以适应韩语特点
- 高级优化(阶段3): 使用GRPO进行强化学习优化,完善韩语和英语推理能力,并以格式结构、事实准确性和语言一致性作为综合奖励信号
这种系统方法使DNA-R1能够为复杂问题解决开发精细的链式思维(CoT)推理,从而打造出专为韩语推理优化的模型,同时保持强大的通用能力。
性能亮点
我们的韩语专用多阶段训练流程显著提升了Phi-4基础模型对韩语语境的理解、推理深度和响应能力。该模型擅长:
- 生成细腻的韩语链式思维(CoT)
- 执行严格的自我验证
- 解决多步骤复杂问题
- 在推理中保持文化和语言背景
- 使用
<think>
和<answer>
标签区分深度思考和简洁回答
评估结果
下表展示了DNA-R1模型在数学、编程、科学、韩语和通用性能基准测试中的评估结果。尽管仅有140亿参数规模,DNA-R1模型在多个基准测试中展现出优于许多更大模型的性能。
基准测试 |
任务 |
DNA-R1 (14B) |
DeepSeek-R1-Distill-Qwen-14B |
DeepSeek-R1-Distill-Qwen-32B |
EXAONE-3.5-32B-Instruct |
QwQ-32B-Preview |
gpt-4o-0513 |
o1-mini |
o1-preview |
GSM8K |
数学 |
92.49 |
88.63 |
82.64 |
91.9 |
82.41 |
- |
- |
- |
Math500 |
89.4 |
88.2 |
87.4 |
75.8 |
92.2 |
75.8 |
85.6 |
81.4 |
AIME2024 |
53.3 |
69.7 |
72.6 |
6.67 |
50.0 |
8.6 |
64.0 |
40 |
OlympiadBench (数学, 英语) |
59.94 |
56.82 |
55.34 |
38.58 |
62.17 |
- |
- |
59.2 |
GPQA-Diamond |
科学/推理 |
61.11 |
59.1 |
58.08 |
33.33 |
52.5 |
46.5 |
60 |
75.2 |
LiveCodeBench |
编程 |
50.58 |
59.88 |
61.65 |
19.8 |
59.12 |
50.48 |
72.75 |
59.14 |
KMMLU-direct |
韩语 |
59.9 |
50.5 |
58.62 |
50.72 |
62.96 |
- |
- |
- |
KMMLU-hard |
36.65 |
25.34 |
33.67 |
25.46 |
37.98 |
- |
- |
- |
KoBEST |
83.05 |
74.32 |
78.53 |
86.54 |
85.93 |
- |
- |
- |
MMLU-Pro |
通用 |
57.64 |
50.55 |
59.58 |
- |
46.82 |
- |
- |
- |
快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
tokenizer = AutoTokenizer.from_pretrained('dnotitia/DNA-R1')
model = AutoModelForCausalLM.from_pretrained('dnotitia/DNA-R1', device_map='auto')
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
conversation = [
{"role": "user", "content": """
从小我家就很穷
几乎没有像别人那样外出就餐过
当妈妈去工作时
我总是独自煮方便面吃
后来因为方便面太腻了
我闹着要吃些好吃的
于是妈妈不情愿地拿出
她藏起来的应急钱
给我点了一份炸酱面,我幸福极了
但妈妈不知为何没有吃
妈妈说讨厌炸酱面
妈妈说讨厌炸酱面
哎呀~就这样生活着
这样后悔着流着泪
哎呀~就这样生活着
虽然很痛苦但再次微笑
---
这是朋友写的诗,诗中朋友的妈妈为什么说讨厌炸酱面?爱or牺牲?"""},
]
inputs = tokenizer.apply_chat_template(conversation,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt").to(model.device)
_ = model.generate(**inputs, streamer=streamer)
许可证
本模型采用CC BY-NC 4.0许可证发布。如有任何问题或商业使用咨询,请联系我们。
引用
如果您在学术研究中使用或讨论本模型,请引用本项目以帮助传播:
@misc{dnar12025,
title={DNA R1},
author={Jungyup Lee and Jemin Kim and Sang Park and SeungJae Lee},
year={2025},
publisher={HuggingFace},
url={https://huggingface.co/dnotitia/DNA-R1}
}