许可证:apache-2.0
基础模型:upstage/SOLAR-10.7B-v1.0
标签:
- 训练生成
模型索引:
- 名称:yanolja/EEVE-Korean-10.8B-v1.0
结果:[]

EEVE-Korean-10.8B-v1.0
加入我们的Discord社区!
如果您对大型语言模型领域充满热情,并希望交流知识与见解,我们诚挚邀请您加入我们的Discord服务器。请注意,该服务器主要使用韩语交流。LLM领域发展迅猛,若不积极分享,我们的集体知识将迅速过时。让我们携手合作,共创更大影响!点击加入:Discord链接。
我们的核心团队(按字母顺序排列)
研究 |
工程 |
产品管理 |
UX设计 |
Myeongho Jeong |
Geon Kim |
Bokyung Huh |
Eunsue Choi |
Seungduk Kim |
Rifqi Alfi |
|
|
Seungtaek Choi |
Sanghoon Han |
|
|
|
Suhyun Kang |
|
|
关于模型
本模型是基于upstage/SOLAR-10.7B-v1.0的韩语词汇扩展版本,专门针对HuggingFace上各类韩语网络爬取数据集进行了微调。我们通过预训练新词元的嵌入表示,并对已有词元的lm_head
嵌入进行部分微调,同时保留基础模型的原始参数,从而扩展模型对韩语的理解能力。
技术深度解析
为将基础模型从英语适配至韩语,我们采用基于子词的嵌入方法,通过七阶段参数冻结训练流程:
- 逐步从输入嵌入训练至全参数解冻
- 高效扩展模型词汇表以涵盖韩语
- 通过精细整合新语言词元增强跨语言适用性
- 专注因果语言建模预训练
- 利用英语基础模型的固有能力实现知识迁移
- 优化韩语适应过程
完整技术细节请参阅我们的技术报告:面向多语言大模型的高效词汇扩展方法。
核心方法简化代码如下:
def freeze_partial_embedding_hook(grad):
grad[:number_of_old_tokens] = 0
return grad
for name, param in model.named_parameters():
if ("lm_head" in name or "embed_tokens" in name) and "original" not in name:
param.requires_grad = True
if "embed_tokens" in name:
param.register_hook(freeze_partial_embedding_hook)
else:
param.requires_grad = False
使用与限制
请注意本模型未经过指令微调。虽然在韩语任务中表现优异,但建议针对具体应用场景进行审慎评估和额外训练。
训练详情
我们采用了全面多样的训练策略:
- 词汇扩展流程
基于韩语网络语料库词频,精心筛选8,960个韩语词元,包含以下步骤:
- 在40,000词汇量基础上训练中间分词器
- 提取SOLAR原分词器未包含的韩语新词元
- 人工构建目标分词器
- 通过100GB韩语语料进行词频统计
- 剔除出现次数低于6,000次的词元
- 补录高频单字韩文字符
- 迭代优化直至词元稳定
- 训练数据偏向包含新词元的文本
该严谨流程确保模型获得丰富且符合语境的韩语词汇库。
引用
@misc{kim2024efficient,
title={面向多语言大模型的高效词汇扩展方法},
author={Seungduk Kim and Seungtaek Choi and Myeongho Jeong},
year={2024},
eprint={2402.14714},
archivePrefix={arXiv},
primaryClass={cs.CL}
}