RAG Specialized LLM
R
RAG Specialized LLM
由 Surromind 开发
基于Qwen2.5-14B微调的韩语大语言模型,专注于RAG(检索增强生成)任务,能够生成包含来源引用的结构化回答。
下载量 52
发布时间 : 3/21/2025
模型简介
本模型针对RAG服务优化,能够分析输入文档并生成包含准确来源引用的回答,输出格式为结构化JSON。特别适用于需要提供可信来源信息的问答场景。
模型特点
结构化JSON输出
自动生成包含相关文档、来源引用和答案的标准化JSON格式输出
来源标注
在回答中精确标注引用来源,使用<co: doc_id>标签标记引用段落
多文档分析
能够同时分析多个相关文档并整合信息生成综合回答
韩语优化
针对韩语文本理解和生成进行专项优化
模型能力
文本生成
问答系统
文档分析
来源引用
结构化输出
使用案例
企业知识库
内部文档问答
基于企业内部分档快速生成带来源引用的专业回答
提高信息可信度和可追溯性
客户服务
产品FAQ生成
根据产品文档自动生成带来源引用的客户问答
减少人工客服工作量同时保证回答准确性
教育研究
学术文献问答
基于研究论文生成带精确引用的解释性回答
辅助研究人员快速获取关键信息
🚀 RAG 특화 한국어 LLM 모델
本项目基于Qwen2.5 14B模型,使用自行构建的RAG特化数据集、CoT数据集和基准数据集进行全量微调。该模型能够针对常见RAG服务的输入数据生成准确的答案及答案出处,并以Json格式输出。
🚀 快速开始
以下是使用该模型的快速示例代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Surromind/RAG-Specialized-LLM"
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype="auto", device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = """ 질문 : NAOG 외에 몽골의 어떤 사람들이 행정자치부 지방행정연수원의 교육 프로그램에 참가해왔지?\n\n doc_id : 44365 / title : 한국 지방인재개발전략 베트남에 전수된다. / content : 한국 지방인재개발전략 베트남에 전수된다.\n□ 베트남 랑선성 지방정부 공무원들이 공무원 인재채용 및 교육 훈련제도 시스템 등 한국의 인적자원개발전략을 배우러 우리나라를 찾았다. \n○ 행정자치부 지방행정연수원(원장 ***, 이하 연수원)은 한국국제 협력단(KOICA)과 공동으로 11월 26일부터 12월 9일까지 2주간 베트남 랑선성 지방정부 공무원 15명을 대상으로『베트남 랑선성 지방정부 공무원 역량강화과정(Capacity Building for Vietnamese Local Government Officials from Lan Son Province』을 운영한다.\n□ 이번 과정은 연수생 대부분이 베트남 랑선성 소속공무원인 만큼 해당 지방정부가 요청한 지방행정, 공무원 채용·교육, 지역경제 활성화 강의 및 현장견학 등의 맞춤형 연수과정으로 설계되었다. \n○ 특히, 베트남 지방정부 공무원들의 리더십과 역량을 강화하기 위해 공무원 인재채용 및 교육훈련제도 시스템에 대한 토론식 세미나 방식으로 Action Plan을 수립하도록 하여 연수생이 랑선성의 인적자원개발 정책수립에 적용할 수 있도록 지원할 예정이다.\n○ 아울러, 연수단은 농업소득증대와 지역경제 활성화 성공사례로 평가 받고 있는 완주군 거점농민가공센터, 지역경제순환센터 등을 방문하여 지역농민이 생산한 농산물이 2차, 3차 식품 가공 과정을 거쳐 안정적으로 판매될 수 있도록 지원하는 농산물 가공 시스템 현장을 살펴 볼 예정이다. \n○ 이외에도 베트남 랑선성에서 관심이 많은 인천경제자유구역청을 견학하여 한국의 경제발전상 등 현장을 둘러보면서 랑선성 지역 경제에 접목할 수 있는 체험의 기회도 가질 예정이다. \n□ 한편, 연수원은 2006년부터 베트남 지방 공무원들을 대상으로 연수과정을 운영한 이후 5개 베트남 과정과 기타 다국 과정을 통하여 총 130명의 연수생을 동창생으로 배출했다.doc_id : 45112 / title : “한국 공기업 혁신사례 배우러 왔어요!” / content : 몽골 NAOG 교수단 및 고위공무원 방한 “한국 공기업 혁신사례 배우러 왔어요!” - 지방행정연수원, 13년째 몽골 맞춤형 교육실시-\n□ 행정자치부 지방행정연수원(원장 최두영, 이하 연수원)은 3월 1일부터 3월 8일까지 『몽골 NAOG* 역량강화과정』을 운영한다. \n○ 이번 과정에는 교수, 고위공무원, 연수관계관 14명이 참가한다. \n* NAOG (국립거버넌스 아카데미, National Academy of Governance) : 공무원은 물론 정치인·민간인 등 몽골의 오피니언 리더들을 교육하는 몽골 최대의 교육기관으로 석․박사학위 수여\n□ 연수원은 몽골 NAOG와 2002년 교류협력 MOU를 체결한 이후, 13개 교육과정(행정개혁, 경제발전 전략, 행정의 투명성 제고 방안 등)을 운영해 158명의 NAOG 교수와 고위 공무원을 동창생으로 배출했고, \n○ 그 이외에도 몽골의 도지사, 군수 등 지방공무원 1,310명을 대상으로 한국 지방행정의 우수사례를 벤치마킹할 수 있는 몽골군수 과정 등 다양한 교육프로그램을 운영해 오고 있다."""
messages = [
{
"role": "system",
"content": """당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[{"related_document" : {"문서 정보에서 찾은 doc_id"}, "source" : {"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기", "문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기"},"answer" : "출처를 표기하지 않은 3~6문장 설명형 답변","grounded_answer" : "answer과 동일하되 <co: doc_id>와 </co: doc_id> 기호로 인용 출처를 명시한 답변"}]\n""",
},
{"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
generated_ids = [
output_ids[len(input_ids) :]
for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主要特性
- 基于Qwen2.5 14B模型进行全量微调,能够针对常见RAG服务的输入数据生成准确的答案及答案出处。
- 以Json格式输出答案,输出的键值包含 "related_document"、"source"、"answer" 和 "grounded_answer"。
📦 安装指南
暂未提供相关安装步骤,你可以参考上述快速开始部分的代码进行使用。
💻 使用示例
基础用法
# 上述快速开始部分的代码即为基础使用示例
高级用法
暂未提供高级使用场景的示例代码。
📚 详细文档
RAG提示模板
RAG_PROMPT = """<|im_start|>system\n\n 당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[
{{
"related_document" : {{"문서 정보에서 찾은 doc_id"}}
"source" : {{"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기",
"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기"}},
"answer" : "출처를 표기하지 않은 3~6문장 설명형 답변",
"grounded_answer" : "answer과 동일하되 <co: doc_id>와 </co: doc_id> 기호로 인용 출처를 명시한 답변"
}}
]\n
<|im_end|>\n<|im_start|>user\n {instruction} <|im_end|>\n<|im_start|>assistant\n"""
答案输出示例
{
"related_document": {
"D0000042284685": "가락몰 전동 삼륜차 화재예방 추진 대책",
"4895": "차세대 고신뢰성 고출력 슈퍼축전기"
},
"source": {
"D0000042284685": "「물류운반장비 충전장치(리튬이온 배터리) ...",
"4895": "슈퍼축전기와 리튬이차전지의 비교 ..."
},
"answer": "가락몰 전동 삼륜차의 리튬이온 배터리와 슈퍼축전기는 메...",
"grounded_answer": "가락몰 전동 삼륜차의 리튬이온 배터리와 슈퍼축전기는 <co: 4895>메커니즘, 소재, 수명, 보호회로, 극성, 과전압, 잔존용량측정, 특징</co: 4895> 등에서 차이가 있습니다. 리튬이온 배터리는 <co: 4895>리튬이온 이동 메커니즘</co: 4895>을 가지고 있으며,... "
}
🔧 技术细节
训练环境及参数
属性 | 详情 |
---|---|
调优环境 | H100(80GB) * 8 |
tokenizer_model_mex_length | 4500 |
use_flash_attn | True |
num_train_epochs | 3.0 |
weight_decay | 0.001 |
lr_scheduler_type | "linear" |
per_device_train_batch_size | 1 |
gradient_accumulation_steps | 64 |
learning_rate | 5e-06 |
bf16 | True |
deepspeed | ds_stage2.json |
使用数据集
- AIhub 16 行政文档对象机器阅读理解数据
- AIhub 17 新闻文章机器阅读理解数据
- AIhub 21 图书资料机器阅读理解
- AIhub 149 表信息问答数据
- AIhub 150 数字运算机器阅读理解数据
- AIhub 151 金融、法律文档机器阅读理解数据
- kyujinpy/KoCoT_2000
- MarkrAI/KoCommercial-Dataset
- CarrotAI/ko-instruction-dataset
- heegyu/CoT-collection-ko
📄 许可证
本项目采用 Apache-2.0 许可证。
📞 联系我们
- 公司名称:써로마인드
- 公司地址:首尔市冠岳区南部循环路 1802, 2层
- 联系电话:02 - 872 - 5127
- 邮箱:contact@surromind.ai
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文