DNA-R1开源韩语推理模型 - 强化学习提升能力，数学编程推理皆优

首页

DNA R1

由 dnotitia 开发

DNA-R1是基于微软Phi-4优化的韩语专用推理模型，通过强化学习显著提升了韩语推理能力，在数学、编程和通用推理任务中表现出色。

大型语言模型

Transformers

支持多种语言#韩语推理优化 #链式思维生成 #数学编程双优

下载量 1,943

发布时间 : 4/25/2025

模型简介

DNA-R1是一款专为韩语优化的推理模型，展现出对韩语文本的深刻理解，并在数学、编程和通用推理任务中表现出卓越的推理能力。

模型特点

韩语专用推理优化

通过多阶段训练流程专门优化韩语推理能力，包括初始监督微调、推理模式整合和GRPO强化学习

链式思维推理

能够生成细腻的韩语链式思维(CoT)，执行自我验证和解决多步骤复杂问题

文化语境理解

在推理中保持韩语文化和语言背景，使用特殊标签区分深度思考和简洁回答

模型能力

韩语文本理解

数学推理

编程问题解决

科学推理

通用问题解答

链式思维生成

自我验证

使用案例

教育

数学问题解答

解决复杂的数学问题和奥林匹克竞赛题目

在GSM8K基准测试中达到92.49分

韩语诗歌分析

理解和分析韩语诗歌中的隐含意义和文化背景

技术

编程问题解决

理解和解决编程问题和算法挑战

在LiveCodeBench基准测试中达到50.58分

🚀 DNA-R1

DNA-R1 是一款基于微软 Phi-4 专为韩语优化的专业推理模型。通过采用与 DeepSeek-R1 相同的大规模强化学习（RL）方法，显著提升了模型在韩语方面的推理能力。该模型展现出对韩语文本的深刻理解，在数学、编码和通用推理任务中均表现出卓越的推理能力。

🚀 快速开始

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

tokenizer = AutoTokenizer.from_pretrained('dnotitia/DNA-R1')
model = AutoModelForCausalLM.from_pretrained('dnotitia/DNA-R1', device_map='auto')
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

conversation = [
    {"role": "user", "content": """
어려서부터 우리 집은 가난했었고
남들 다하는 외식 몇 번 한 적이 없었고
일터에 나가신 어머니 집에 없으면
언제나 혼자서 끓여 먹었던 라면
그러다 라면이 너무 지겨워서
맛있는 것 좀 먹자고 대들었었어
그러자 어머님이 마지못해 꺼내신
숨겨두신 비상금으로 시켜주신
짜장면 하나에 너무나 행복했었어
하지만 어머님은 왠지 드시질 않았어
어머님은 짜장면이 싫다고 하셨어
어머님은 짜장면이 싫다고 하셨어
야이야~야 그렇게 살아가고
그렇게 후회하고 눈물도 흘리고
야이야~야 그렇게 살아가고
너무나 아프고 하지만 다시 웃고
---
친구가 쓴 시인데, 여기서 친구의 어머니가 짜장면이 싫다고 하신 이유는?사랑or희생?"""},
]
inputs = tokenizer.apply_chat_template(conversation,
                                       add_generation_prompt=True,
                                       return_dict=True,
                                       return_tensors="pt").to(model.device)
_ = model.generate(**inputs, streamer=streamer)

✨ 主要特性

基于微软 Phi-4 模型，专为韩语推理进行优化。
通过大规模强化学习，显著提升韩语推理能力。
能够深刻理解韩语文本，在数学、编码和通用推理任务中表现出色。
具备自我验证、反思和生成长思维链（CoT）的能力。

📦 模型规格

属性	详情
开发方	Dnotitia Inc.
支持语言	韩语、英语
模型发布日期	2025 年 3 月 6 日
参数数量	140 亿
许可证	CC BY-NC 4.0

🔧 技术细节

多阶段训练流程

为提升 Phi-4 在韩语推理方面的能力，我们采用了一套复杂的训练方法：

第一阶段：初始基础：使用从 DNA 1.0 8B Instruct 训练流程中复用的大规模韩语非推理数据集（76 万个示例）进行监督微调。
第二阶段：推理整合：利用专门的韩语推理数据集（30 万个示例），从 DeepSeek R1 中引入韩语推理模式。
第三阶段：高级优化：使用 GRPO 进行强化学习优化，结合韩语/英语推理数据集，以格式、准确性和语言一致性作为奖励。

这种系统的方法使 DNA-R1 能够针对复杂问题开发出精细的思维链（CoT）推理能力，从而在保持强大通用能力的同时，针对韩语推理进行了精细校准。

性能亮点

我们针对韩语的多阶段训练流程显著提升了 Phi-4 基础模型对韩语上下文的理解、推理深度和响应能力。该模型在以下方面表现出色：

生成细致入微的韩语思维链（CoT）。
进行严格的自我验证。
解决多步骤复杂问题。
在推理过程中保持文化和语言背景。
使用 <think> 和 <answer> 标签区分深度思考和简洁回答。

📊 评估结果

以下是我们在数学、编码、科学、韩语和通用性能基准测试中对 DNA-R1 模型的评估结果。尽管 DNA-R1 模型只有 140 亿参数，但在各种基准测试中，其性能优于许多更大规模的模型。

基准测试	任务	DNA-R1 (14B)	DeepSeek-R1-Distill-Qwen-14B	DeepSeek-R1-Distill-Qwen-32B	EXAONE-3.5-32B-Instruct	QwQ-32B-Preview	gpt-4o-0513	o1-mini	o1-preview
GSM8K	数学	92.49	88.63	82.64	91.9	82.41	-	-	-
Math500	数学	89.4	88.2	87.4	75.8	92.2	75.8	85.6	81.4
AIME2024	数学	53.3	69.7	72.6	6.67	50.0	8.6	64.0	40
OlympiadBench (Math, EN)	数学	59.94	56.82	55.34	38.58	62.17	-	-	59.2
GPQA-Diamond	科学/推理	61.11	59.1	58.08	33.33	52.5	46.5	60	75.2
LiveCodeBench	编码	50.58	59.88	61.65	19.8	59.12	50.48	72.75	59.14
KMMLU-direct	韩语	59.9	50.5	58.62	50.72	62.96	-	-	-
KMMLU-hard	韩语	36.65	25.34	33.67	25.46	37.98	-	-	-
KoBEST	韩语	83.05	74.32	78.53	86.54	85.93	-	-	-
MMLU-Pro	通用	57.64	50.55	59.58	-	46.82	-	-	-

最高分数以粗体显示，第二高分数以下划线显示。
所有基准测试均使用 lm-eval 和 skythought-eval 进行评估。

📄 许可证

本模型采用 CC BY-NC 4.0 许可证发布。如果您有任何问题或商业使用咨询，请联系我们。

📚 引用

如果您在学术研究中使用或讨论此模型，请引用该项目以帮助推广：

@misc{dnar12025,
      title={DNA R1}, 
      author={Jungyup Lee and Jemin Kim and Sang Park and SeungJae Lee},
      year={2025},
      publisher={HuggingFace},
      url={https://huggingface.co/dnotitia/DNA-R1}
}