🚀 SEA-LION-v1-3B
SEA-LION是一系列大语言模型(LLM),针对东南亚(SEA)地区进行了预训练和指令微调。这些模型的参数规模从30亿到70亿不等。本文档是关于SEA-LION-v1-3B的介绍。
SEA-LION代表着“将东南亚语言整合在一个网络中”。
📚 模型详情
🔍 模型描述
SEA-LION模型是自然语言处理领域的一次重大飞跃,专门针对东南亚地区的语境进行训练。
SEA-LION-v1-3B基于强大的MPT架构构建,词汇量为256K。
在分词方面,该模型采用了我们定制的SEABPETokenizer,它是专门为东南亚语言量身定制的,确保了模型的最佳性能。
SEA-LION-v1-3B的训练数据包含9800亿个token。
- 开发者:新加坡人工智能公司产品支柱团队
- 资助方:新加坡国家研究基金会
- 模型类型:解码器
- 支持语言:英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语、老挝语
- 许可证:MIT许可证
📊 性能基准
SEA-LION-v1-3B在英语通用任务上的平均表现(根据Hugging Face的大语言模型排行榜衡量)如下:
模型 |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
平均 |
SEA-LION 3B |
36.26 |
64.59 |
24.07 |
36.46 |
40.35 |
🔬 训练详情
📈 数据
SEA-LION-v1-3B在以下9800亿个token的数据上进行训练:
数据源 |
唯一token数 |
乘数 |
总token数 |
百分比 |
RefinedWeb - 英语 |
5713亿 |
1 |
5713亿 |
58.20% |
mC4 - 中文 |
912亿 |
1 |
912亿 |
9.29% |
mC4 - 印尼语 |
36.8亿 |
4 |
147亿 |
1.50% |
mC4 - 马来语 |
7.2亿 |
4 |
29亿 |
0.29% |
mC4 - 菲律宾语 |
13.2亿 |
4 |
53亿 |
0.54% |
mC4 - 缅甸语 |
12亿 |
4 |
49亿 |
0.49% |
mC4 - 越南语 |
634亿 |
1 |
634亿 |
6.46% |
mC4 - 泰语 |
58亿 |
2 |
116亿 |
1.18% |
WangChanBERTa - 泰语 |
50亿 |
2 |
100亿 |
1.02% |
mC4 - 老挝语 |
2.7亿 |
4 |
11亿 |
0.12% |
mC4 - 高棉语 |
9.7亿 |
4 |
39亿 |
0.40% |
mC4 - 泰米尔语 |
25.5亿 |
4 |
102亿 |
1.04% |
the Stack - Python |
209亿 |
2 |
418亿 |
4.26% |
the Stack - Javascript |
556亿 |
1 |
556亿 |
5.66% |
the Stack - Shell |
12.5亿 |
2 |
25亿 |
0.26% |
the Stack - SQL |
64亿 |
2 |
128亿 |
1.31% |
the Stack - Markdown |
266亿 |
1 |
266亿 |
2.71% |
RedPajama - StackExchange |
212亿 |
1 |
212亿 |
2.16% |
RedPajama - ArXiv |
306亿 |
1 |
306亿 |
3.12% |
🖥️ 基础设施
SEA-LION-v1-3B使用MosaicML Composer在以下硬件上进行训练:
训练详情 |
SEA-LION-v1-3B |
AWS EC2 p4d.24xlarge |
30 个实例 |
Nvidia A100 40GB GPU |
240 个 |
训练时长 |
14 天 |
⚙️ 配置
超参数 |
SEA-LION-v1-3B |
精度 |
bfloat16 |
优化器 |
decoupled_adamw |
调度器 |
cosine_with_warmup |
学习率 |
1.6e-4 |
全局批量大小 |
1200 |
微批量大小 |
5 |
🛠️ 技术规格
📐 模型架构与目标
SEA-LION-v1-3B是一个基于MPT架构的解码器模型。
参数 |
SEA-LION-v1-3B |
层数 |
32 |
d_model |
2560 |
头维度 |
20 |
词汇量 |
256000 |
序列长度 |
2048 |
📋 分词器详情
我们从训练数据中抽取了2000万行来训练分词器。
训练框架为SentencePiece。
分词器类型为字节对编码(BPE)。
👥 团队成员
Lam Wen Zhi Clarence
Leong Wei Qi
Li Yier
Liu Bing Jie Darius
Lovenia Holy
Montalan Jann Railey
Ng Boon Cheong Raymond
Ngui Jian Gang
Nguyen Thanh Ngan
Ong Tat-Wee David
Rengarajan Hamsawardhini
Susanto Yosephine
Tai Ngee Chia
Tan Choon Meng
Teo Jin Howe
Teo Eng Sipp Leslie
Teo Wei Yi
Tjhi William
Yeo Yeow Tong
Yong Xianbin
🙏 致谢
新加坡人工智能是由新加坡国家研究基金会支持的国家项目,由新加坡国立大学主办。本材料中表达的任何观点、研究结果、结论或建议均为作者个人观点,不反映新加坡国家研究基金会的意见。
📞 联系我们
如需更多信息,请通过SEA-LION咨询表单与我们联系。
SEA-LION的GitHub仓库链接
⚠️ 免责声明
这是基础模型的仓库。该模型尚未进行安全对齐。开发者和用户应自行进行安全微调及相关安全措施。在任何情况下,作者均不对因使用发布的权重和代码而产生的任何索赔、损害或其他责任负责。
📚 参考文献
泰语预训练数据参考文献
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}