许可协议: 其他
协议名称: hyperclovax-seed
协议链接: LICENSE
模型类型: 文本生成
库名称: transformers

模型概述
HyperCLOVAX-SEED-Text-Instruct-0.5B是一款具备指令跟随能力的文本到文本模型,在韩语语言文化理解方面表现卓越。与同等规模的外部竞品相比,该模型展现出更优异的数学运算能力及显著的韩语能力提升。作为HyperCLOVAX目前发布的最小模型,它是一款适合部署在边缘设备等资源受限环境中的轻量级解决方案,支持最大4K上下文长度,可作为通用小型模型应用于广泛任务场景。单次训练总成本为4,358 A100 GPU小时(约合6,537美元),比训练QWEN2.5-0.5B-instruct
模型的成本降低39倍。
基础信息
- 架构: 基于Transformer(密集模型)
- 参数量: 0.57B(总计);0.45B(不含词嵌入,共享嵌入)
- 输入/输出格式: 文本/文本
- 最大上下文长度: 4K tokens
- 知识截止日期: 训练数据截至2025年1月
训练与数据
训练数据集包含多源数据,包括开发HyperCLOVAX-SEED-Text-Instruct-0.5B过程中积累的高质量数据。训练分为三个阶段:
- 预训练: 使用高质量数据和高性能预训练模型进行知识获取
- 拒绝采样微调(RFT): 增强多领域知识和复杂推理能力
- 监督微调(SFT): 提升指令跟随熟练度
训练成本
通过轻量级训练流程和高质量数据,相比同规模行业领先竞品显著降低训练成本(不含SFT阶段):
预训练成本类别 |
HyperCLOVAX-SEED-Text-Instruct-0.5B |
QWEN2.5-0.5B-instruct |
A100 GPU小时 |
4,358 |
169,257 |
成本(美元) |
6,537 |
253,886 |
相较QWEN2.5-0.5B-instruct
实现约39倍的预训练成本降低。
基准测试
模型 |
KMMLU(5-shot,准确率) |
HAE-RAE(5-shot,准确率) |
CLiCK(5-shot,准确率) |
KoBEST(5-shot,准确率) |
HyperCLOVAX-SEED-Text-Base-0.5B |
0.4181 |
0.6370 |
0.5373 |
0.6963 |
HyperCLOVAX-SEED-Text-Instruct-0.5B |
0.3815 |
0.5619 |
0.4446 |
0.6299 |
QWEN2.5-0.5B-instruct |
0.2968 |
0.3428 |
0.3805 |
0.5025 |
HuggingFace使用示例
Python代码
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-0.5B").to(device="cuda")
tokenizer = AutoTokenizer.from_pretrained("naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-0.5B")
chat = [
{"role": "tool_list", "content": ""},
{"role": "system", "content": "- AI语言模型名为\"CLOVA X\",由NAVER开发。\n- 当前日期为2025年04月24日(周四)。"},
{"role": "user", "content": "请详细解释薛定谔方程与量子力学的关系。"},
]
inputs = tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_dict=True, return_tensors="pt")
inputs = inputs.to(device="cuda")
output_ids = model.generate(**inputs, max_length=1024, stop_strings=["<|endofturn|>", "<|stop|>"], repetition_penalty=1.2, tokenizer=tokenizer)
print(tokenizer.batch_decode(output_ids))
输出结果
['<|im_start|>tool_list\n<|im_end|>\n<|im_start|>system\n- AI语言模型名为"CLOVA X",由NAVER开发。\n- 当前日期为2025年04月24日(周四)。<|im_end|>\n<|im_start|>user\n请详细解释薛定谔方程与量子力学的关系。<|im_end|>\n<|im_start|>assistant\n量子力学通过薛定谔方程解释物质、能量、空间等现象。\n\n**1. 薛定谔方程**\n\n薛定谔提出利用波函数计算粒子的位置和动量,其表达式为:\n\n$$\\frac{\\partial \\psi}{\\partial t} = iH \\nabla^2 \\psi + V(x)\\psi $$\n\n其中$\\psi$为波函数,$i$为虚数单位,$t$表示时间,$x$为空间坐标,$H$是表示系统能量的哈密顿常数,$V(x)$是表征外力和势垒影响的函数。\n\n**2. 量子力学与薛定谔方程的关系**\n\n薛定谔方程在量子力学中具有核心地位。由于所有物理系统都遵循不确定性原理,这些系统必然以概率形式存在状态。因此该方程成为量子力学数学建模的关键工具。\n\n例如原子核内电子状态由该方程决定,光电效应中也用于预测光在物质中的吸收反射规律。\n\n**3. 应用领域**\n\n该方程广泛应用于半导体晶体管设计、核物理放射性衰变研究等领域,并为人工智能、计算机模拟等现代科技发展提供理论基础。\n\n综上,薛定谔方程不仅是理解量子力学的基础工具,更催生了众多创新实用技术,堪称量子力学重要性的典范体现。<|im_end|><|endofturn|>']