🚀 开源Solar-Ko模型
Solar-Ko是upstage/SOLAR-10.7B-v1.0模型的高级迭代版本,它扩展了词汇表,并加入了韩语语料库进行增强预训练。Open-Solar-Ko仅使用公开可用的韩语语料库,如AI Hub、Modu Corpus, 모두의 말뭉치和Korean Wikipedia。由于该模型仅使用公开语料库进行训练,因此遵循Apache2.0开源许可证,可供所有人自由使用。
🚀 快速开始
此部分文档未提供快速开始的相关内容,若有需要可参考模型使用的相关代码库或官方文档进行操作。
✨ 主要特性
- 词汇扩展:在原始Solar模型基础上,扩展了韩语词汇,提升了对韩语的处理能力。
- 公开语料训练:仅使用公开可用的韩语语料库进行训练,遵循开源协议,可自由使用。
- 优化架构:基于Llama - 2的优化Transformer架构,性能更优。
📚 详细文档
模型详情
- 模型开发者:Junbum Lee (Beomi)
- 模型变体:Solar-Ko有一个参数规模版本,即10B持续预训练版本。
- 输入输出:模型仅接受文本输入,并输出文本。
- 模型架构:SOLAR-KO-10.7B是一个自回归语言模型,采用了源自Llama - 2的优化Transformer架构。
属性 |
详情 |
模型类型 |
自回归语言模型,基于Llama - 2的优化Transformer架构 |
训练数据 |
精选自AI Hub和Modu Corpus的公开韩语语料库 |
参数数量 |
10.7B |
内容长度 |
4k |
GQA |
支持 |
总词元数 |
约150亿词元(使用扩展分词器;使用原始SOLAR分词器,>600亿词元) |
学习率 |
5e-5 |
训练语料
模型使用了从AI Hub和Modu Corpus中精选的数据集进行训练。训练数据集的详细信息如下:
用于训练该模型的最终JSONL数据集大小约为61GB,总词元数约为150亿(使用扩展分词器;使用原始SOLAR分词器,>600亿词元)。
词汇扩展
模型名称 |
词汇表大小 |
描述 |
原始Solar |
32000 |
Sentencepiece BPE |
扩展后的SOLAR-KO-10.7B |
46592 |
Sentencepiece BPE,增加了韩语词汇和合并规则 |
词元化示例
对“안녕하세요, 오늘은 날씨가 좋네요.”进行词元化
- SOLAR-10.7B:26个词元
- SOLAR-KO-10.7b:8个词元
模型 |
词元 |
SOLAR-10.7B |
['▁', '안', '<0xEB>', '<0x85>', '<0x95>', '하', '세', '요', ',', '▁', '오', '<0xEB>', '<0x8A>', '<0x98>', '은', '▁', '날', '<0xEC>', '<0x94>', '<0xA8>', '가', '▁', '좋', '네', '요', '.'] |
SOLAR-KO-10.7B |
['▁안녕', '하세요', ',', '▁오늘은', '▁날', '씨가', '▁좋네요', '.'] |
对“Meet 10.7B Solar: Elevating Performance with Upstage Depth UP Scaling!”进行词元化
- SOLAR-10.7B:22个词元
- SOLAR-KO-10.7b:22个词元
模型 |
词元 |
SOLAR-10.7B |
['▁Meet', '▁', '1', '0', '.', '7', 'B', '▁Solar', ':', '▁E', 'lev', 'ating', '▁Performance', '▁with', '▁Up', 'stage', '▁Dep', 'th', '▁UP', '▁Scal', 'ing', '!'] |
SOLAR-KO-10.7B |
['▁Meet', '▁', '1', '0', '.', '7', 'B', '▁Solar', ':', '▁E', 'lev', 'ating', '▁Performance', '▁with', '▁Up', 'stage', '▁Dep', 'th', '▁UP', '▁Scal', 'ing', '!'] |
模型基准测试
LM Eval Harness - 韩语 (polyglot分支)
使用了EleutherAI的lm - evaluation - harness:https://github.com/EleutherAI/lm-evaluation-harness/tree/polyglot
测试指标 |
0 |
5 |
10 |
50 |
kobest_boolq (macro_f1) |
0.853949 |
0.88098 |
0.898139 |
0.902354 |
kobest_copa (macro_f1) |
0.804531 |
0.826736 |
0.837656 |
0.860899 |
kobest_hellaswag (macro_f1) |
0.507174 |
0.500983 |
0.487287 |
0.512182 |
kobest_sentineg (macro_f1) |
0.3517 |
0.972291 |
0.977321 |
0.984884 |
kohatespeech (macro_f1) |
0.258111 |
0.403957 |
0.386808 |
0.462393 |
kohatespeech_apeach (macro_f1) |
0.337667 |
0.651697 |
0.705337 |
0.827757 |
kohatespeech_gen_bias (macro_f1) |
0.124535 |
0.503464 |
0.498501 |
0.443218 |
korunsmile (f1) |
0.3814 |
0.356939 |
0.369989 |
0.296193 |
nsmc (acc) |
0.5356 |
0.87162 |
0.88654 |
0.89632 |
pawsx_ko (acc) |
0.5435 |
0.5245 |
0.5315 |
0.5385 |
引用信息
@misc {solar_ko_junbum_2023,
author = { {L. Junbum} },
title = { Solar-Ko-10.7b },
year = 2024,
url = { https://huggingface.co/beomi/SOLAR-KO-10.7B },
publisher = { Hugging Face }
}
致谢
📄 许可证
本模型遵循Apache 2.0开源许可证。