Llama-DNA-1.0-8B-Instruct开源双语模型 - 优化韩语理解生成，英语能力同样强大

首页

Llama DNA 1.0 8B Instruct

由 dnotitia 开发

基于Llama架构的最先进双语语言模型，特别优化了韩语理解和生成能力，同时保持强大的英语能力。

大型语言模型

Transformers

支持多种语言#韩语优化 #知识蒸馏 #双语对话

下载量 661

发布时间 : 12/6/2024

模型简介

DNA 1.0 8B 指导模型是通过复杂的模型合并过程开发的，包括与Llama 3.1 8B指导模型进行球面线性插值（SLERP），并使用Llama 3.1 405B作为教师模型进行知识蒸馏（KD）。通过高质量韩语数据集的持续预训练（CPT）进行了广泛训练，并通过监督微调（SFT）和直接偏好优化（DPO）完成训练流程。

模型特点

优化的韩语能力

特别针对韩语理解和生成进行了优化，同时保持强大的英语能力。

先进的训练方法

采用球面线性插值（SLERP）、知识蒸馏（KD）、持续预训练（CPT）、监督微调（SFT）和直接偏好优化（DPO）等多种先进训练技术。

长上下文支持

支持131,072标记（128k）的长上下文处理能力。

人类偏好对齐

通过直接偏好优化（DPO）训练流程，使模型输出更符合人类偏好。

模型能力

韩语文本生成

英语文本生成

多轮对话

复杂指令理解

知识问答

使用案例

智能助手

韩语聊天机器人

用于韩语环境的智能对话助手

在KMMLU和KoBEST等韩语基准测试中表现优异

教育

语言学习助手

帮助学习者练习韩语和英语

商业应用

双语客服系统

用于处理韩语和英语客户咨询

🚀 DNA 1.0 8B Instruct

DNA 1.0 8B Instruct 是一款基于 Llama 架构的最先进（SOTA）双语语言模型。它专门针对韩语的理解和生成进行了优化，同时也具备出色的英语处理能力。该模型通过复杂的流程开发而成，包括与 Llama 3.1 8B Instruct 进行球面线性插值（SLERP）模型合并，并使用 Llama 3.1 405B 作为教师模型进行知识蒸馏（KD）。此外，它还使用高质量的韩语数据集进行了持续预训练（CPT），并通过监督微调（SFT）和直接偏好优化（DPO）完成训练，以符合人类偏好并增强指令遵循能力。

DNA 1.0 8B Instruct 在约 70 亿个精心策划的标记数据上进行了微调，并经过了广泛的指令调整，以增强其遵循复杂指令和进行自然对话的能力。

更多详细信息，请参考我们的技术报告。

开发者： Dnotitia Inc.
支持语言： 韩语、英语
模型发布日期： 2024 年 12 月 10 日
词汇量： 128,256
上下文长度： 131,072 个标记（128k）
许可证： CC BY - NC 4.0

通知（韩语）：

本模型可用于商业目的。如果您希望进行商业使用，请通过联系我们进行咨询。我们将通过简单的协商程序批准您的商业使用。

试试由 DNA 驱动的 Mnemos 助手！公测开放 →

✨ 主要特性

基于 Llama 架构，专为韩语理解和生成优化，同时具备强大英语能力。
通过模型合并、知识蒸馏、持续预训练、监督微调等复杂流程训练。
在大量精心策划的数据上微调，增强指令遵循和对话能力。

📦 安装指南

此模型需要 transformers >= 4.43.0。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

tokenizer = AutoTokenizer.from_pretrained('dnotitia/Llama-DNA-1.0-8B-Instruct')
model = AutoModelForCausalLM.from_pretrained('dnotitia/Llama-DNA-1.0-8B-Instruct', device_map='auto')
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

conversation = [
    {"role": "system", "content": "You are a helpful assistant, Dnotitia DNA."},
    {"role": "user", "content": "너의 이름은?"},
]
inputs = tokenizer.apply_chat_template(conversation,
                                       add_generation_prompt=True,
                                       return_dict=True,
                                       return_tensors="pt").to(model.device)
_ = model.generate(**inputs, streamer=streamer)

📚 详细文档

评估

我们在各种基准测试中，将 DNA 1.0 8B Instruct 与其他类似规模的知名语言模型进行了比较，包括韩语特定任务和通用语言理解指标。

语言	基准测试	dnotitia/Llama-DNA-1.0-8B-Instruct	LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct	LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct	yanolja/EEVE-Korean-Instruct-10.8B-v1.0	Qwen/Qwen2.5-7B-Instruct	meta-llama/Llama-3.1-8B-Instruct	mistralai/Mistral-7B-Instruct-v0.3	NCSOFT/Llama-VARCO-8B-Instruct	upstage/SOLAR-10.7B-Instruct-v1.0
韩语	KMMLU	53.26 (第 1 名)	45.30	45.28	42.17	45.66	41.66	31.45	38.49	41.50
	KMMLU-hard	29.46 (第 1 名)	23.17	23.17	19.25	24.78	20.49	17.86	19.83	20.61
	KoBEST	83.40 (第 1 名)	79.05	80.13	81.67	78.51	67.56	63.77	72.99	73.26
	Belebele	57.99 (第 1 名)	40.97	45.11	49.40	54.85	54.70	40.31	53.17	48.68
	CSATQA	43.32 (第 2 名)	40.11	34.76	39.57	45.45	36.90	27.27	32.62	34.22
英语	MMLU	66.64 (第 3 名)	65.27	64.32	63.63	74.26	68.26	62.04	63.25	65.30
	MMLU-Pro	43.05 (第 1 名)	40.73	38.90	32.79	42.5	40.92	33.49	37.11	30.25
	GSM8K	80.52 (第 1 名)	65.96	80.06	56.18	75.74	75.82	49.66	64.14	69.22

最高分数以粗体显示，第二高分数加下划线。

评估协议
为了方便重现我们的评估结果，我们列出了以下使用的评估工具和设置：

	评估设置	指标	评估工具
KMMLU	5-shot	macro_avg / exact_match	lm-eval-harness
KMMLU Hard	5-shot	macro_avg / exact_match	lm-eval-harness
KoBEST	5-shot	macro_avg / f1	lm-eval-harness
Belebele	0-shot	acc	lm-eval-harness
CSATQA	0-shot	acc_norm	lm-eval-harness
MMLU	5-shot	macro_avg / acc	lm-eval-harness
MMLU Pro	5-shot	macro_avg / exact_match	lm-eval-harness
GSM8K	5-shot	acc, exact_match & strict_extract	lm-eval-harness

局限性

虽然 DNA 1.0 8B Instruct 表现出色，但用户应注意以下局限性：

模型偶尔可能会生成有偏见或不适当的内容。
回复基于训练数据，可能无法反映当前信息。
模型有时可能会产生事实错误或不一致的答案。
性能可能因任务的复杂性和领域而异。
生成的内容应检查其准确性和适当性。

附录

KMMLU 分数比较图表：
DNA 1.0 8B Instruct 模型架构 ¹：

合并前后模型权重差异的中位数百分比（我们的 SFT 模型 + Llama 3.1 8B Instruct）：

引用

如果您在学术研究中使用或讨论此模型，请引用该项目以提高知名度：

@misc{lee2025dna10technicalreport,
      title={DNA 1.0 Technical Report}, 
      author={Jungyup Lee and Jemin Kim and Sang Park and SeungJae Lee},
      year={2025},
      eprint={2501.10648},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.10648}, 
}