RAG-Specialized-LLM开源韩语大模型 - 专注RAG任务，生成带引用结构化回答

首页

RAG Specialized LLM

由 Surromind 开发

基于Qwen2.5-14B微调的韩语大语言模型，专注于RAG（检索增强生成）任务，能够生成包含来源引用的结构化回答。

大型语言模型

Safetensors

韩语开源协议:Apache-2.0 #韩语RAG优化 #JSON结构化输出 #多文档引用标注

下载量 52

发布时间 : 3/21/2025

模型简介

本模型针对RAG服务优化，能够分析输入文档并生成包含准确来源引用的回答，输出格式为结构化JSON。特别适用于需要提供可信来源信息的问答场景。

模型特点

结构化JSON输出

自动生成包含相关文档、来源引用和答案的标准化JSON格式输出

来源标注

在回答中精确标注引用来源，使用<co: doc_id>标签标记引用段落

多文档分析

能够同时分析多个相关文档并整合信息生成综合回答

韩语优化

针对韩语文本理解和生成进行专项优化

模型能力

文本生成

问答系统

文档分析

来源引用

结构化输出

使用案例

企业知识库

内部文档问答

基于企业内部分档快速生成带来源引用的专业回答

提高信息可信度和可追溯性

客户服务

产品FAQ生成

根据产品文档自动生成带来源引用的客户问答

减少人工客服工作量同时保证回答准确性

教育研究

学术文献问答

基于研究论文生成带精确引用的解释性回答

辅助研究人员快速获取关键信息

🚀 RAG 특화 한국어 LLM 모델

本项目基于Qwen2.5 14B模型，使用自行构建的RAG特化数据集、CoT数据集和基准数据集进行全量微调。该模型能够针对常见RAG服务的输入数据生成准确的答案及答案出处，并以Json格式输出。

🚀 快速开始

以下是使用该模型的快速示例代码：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Surromind/RAG-Specialized-LLM"
model = AutoModelForCausalLM.from_pretrained(
    model_name, torch_dtype="auto", device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = """ 질문 : NAOG 외에 몽골의 어떤 사람들이 행정자치부 지방행정연수원의 교육 프로그램에 참가해왔지?\n\n doc_id : 44365 / title : 한국 지방인재개발전략 베트남에 전수된다. / content : 한국 지방인재개발전략 베트남에 전수된다.\n□ 베트남 랑선성 지방정부 공무원들이 공무원 인재채용 및 교육 훈련제도 시스템 등 한국의 인적자원개발전략을 배우러 우리나라를 찾았다. \n○ 행정자치부 지방행정연수원(원장 ***, 이하 연수원)은 한국국제 협력단(KOICA)과 공동으로 11월 26일부터 12월 9일까지 2주간 베트남 랑선성 지방정부 공무원 15명을 대상으로『베트남 랑선성 지방정부 공무원 역량강화과정(Capacity Building for Vietnamese Local Government Officials from Lan Son Province』을 운영한다.\n□ 이번 과정은 연수생 대부분이 베트남 랑선성 소속공무원인 만큼 해당 지방정부가 요청한 지방행정, 공무원 채용·교육, 지역경제 활성화 강의 및 현장견학 등의 맞춤형 연수과정으로 설계되었다. \n○ 특히, 베트남 지방정부 공무원들의 리더십과 역량을 강화하기 위해 공무원 인재채용 및 교육훈련제도 시스템에 대한 토론식 세미나 방식으로 Action Plan을 수립하도록 하여 연수생이 랑선성의 인적자원개발 정책수립에 적용할 수 있도록 지원할 예정이다.\n○ 아울러, 연수단은 농업소득증대와 지역경제 활성화 성공사례로 평가 받고 있는 완주군 거점농민가공센터, 지역경제순환센터 등을 방문하여 지역농민이 생산한 농산물이 2차, 3차 식품 가공 과정을 거쳐 안정적으로 판매될 수 있도록 지원하는 농산물 가공 시스템 현장을 살펴 볼 예정이다. \n○ 이외에도 베트남 랑선성에서 관심이 많은 인천경제자유구역청을 견학하여 한국의 경제발전상 등 현장을 둘러보면서 랑선성 지역 경제에 접목할 수 있는 체험의 기회도 가질 예정이다. \n□ 한편, 연수원은 2006년부터 베트남 지방 공무원들을 대상으로 연수과정을 운영한 이후 5개 베트남 과정과 기타 다국 과정을 통하여 총 130명의 연수생을 동창생으로 배출했다.doc_id : 45112 / title : “한국 공기업 혁신사례 배우러 왔어요!” / content : 몽골 NAOG 교수단 및 고위공무원 방한 “한국 공기업 혁신사례 배우러 왔어요!” - 지방행정연수원, 13년째 몽골 맞춤형 교육실시-\n□ 행정자치부 지방행정연수원(원장 최두영, 이하 연수원)은 3월 1일부터 3월 8일까지 『몽골 NAOG* 역량강화과정』을 운영한다. \n○ 이번 과정에는 교수, 고위공무원, 연수관계관 14명이 참가한다. \n* NAOG (국립거버넌스 아카데미, National Academy of Governance) : 공무원은 물론 정치인·민간인 등 몽골의 오피니언 리더들을 교육하는 몽골 최대의 교육기관으로 석․박사학위 수여\n□ 연수원은 몽골 NAOG와 2002년 교류협력 MOU를 체결한 이후, 13개 교육과정(행정개혁, 경제발전 전략, 행정의 투명성 제고 방안 등)을 운영해 158명의 NAOG 교수와 고위 공무원을 동창생으로 배출했고, \n○ 그 이외에도 몽골의 도지사, 군수 등 지방공무원 1,310명을 대상으로 한국 지방행정의 우수사례를 벤치마킹할 수 있는 몽골군수 과정 등 다양한 교육프로그램을 운영해 오고 있다."""
messages = [
    {
        "role": "system",
        "content": """당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[{"related_document" : {"문서 정보에서 찾은 doc_id"}, "source" : {"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기", "문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기"},"answer" : "출처를 표기하지 않은 3~6문장 설명형 답변","grounded_answer" : "answer과 동일하되 <co: doc_id>와 </co: doc_id> 기호로 인용 출처를 명시한 답변"}]\n""",
    },
    {"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(**model_inputs, max_new_tokens=512)
generated_ids = [
    output_ids[len(input_ids) :]
    for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

✨ 主要特性

基于Qwen2.5 14B模型进行全量微调，能够针对常见RAG服务的输入数据生成准确的答案及答案出处。
以Json格式输出答案，输出的键值包含 "related_document"、"source"、"answer" 和 "grounded_answer"。

📦 安装指南

暂未提供相关安装步骤，你可以参考上述快速开始部分的代码进行使用。

💻 使用示例

基础用法

# 上述快速开始部分的代码即为基础使用示例

高级用法

暂未提供高级使用场景的示例代码。

📚 详细文档

RAG提示模板

RAG_PROMPT = """<|im_start|>system\n\n 당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[
    {{
        "related_document" : {{"문서 정보에서 찾은 doc_id"}}
        "source" : {{"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기", 
                     "문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기"}},
        "answer" : "출처를 표기하지 않은 3~6문장 설명형 답변",
        "grounded_answer" : "answer과 동일하되 <co: doc_id>와 </co: doc_id> 기호로 인용 출처를 명시한 답변"
    }}
]\n
<|im_end|>\n<|im_start|>user\n {instruction}  <|im_end|>\n<|im_start|>assistant\n"""

答案输出示例

{
"related_document": {
    "D0000042284685": "가락몰 전동 삼륜차 화재예방 추진 대책",
    "4895": "차세대 고신뢰성 고출력 슈퍼축전기"
},
"source": {
    "D0000042284685": "「물류운반장비 충전장치(리튬이온 배터리) ...",
    "4895": "슈퍼축전기와 리튬이차전지의 비교 ..."
},
"answer": "가락몰 전동 삼륜차의 리튬이온 배터리와 슈퍼축전기는 메...",
"grounded_answer": "가락몰 전동 삼륜차의 리튬이온 배터리와 슈퍼축전기는 <co: 4895>메커니즘, 소재, 수명, 보호회로, 극성, 과전압, 잔존용량측정, 특징</co: 4895> 등에서 차이가 있습니다. 리튬이온 배터리는 <co: 4895>리튬이온 이동 메커니즘</co: 4895>을 가지고 있으며,... "
}

🔧 技术细节

训练环境及参数

属性	详情
调优环境	H100(80GB) * 8
tokenizer_model_mex_length	4500
use_flash_attn	True
num_train_epochs	3.0
weight_decay	0.001
lr_scheduler_type	"linear"
per_device_train_batch_size	1
gradient_accumulation_steps	64
learning_rate	5e-06
bf16	True
deepspeed	ds_stage2.json