许可证: mit
语言:
- 英文
- 中文
- 印尼语
- 马来语
- 菲律宾语
- 缅甸语
- 越南语
- 泰语
- 老挝语
- 高棉语
- 泰米尔语
SEA-LION-v1-3B
SEA-LION是一系列大型语言模型(LLMs)的集合,专为东南亚(SEA)地区进行预训练和指令调优。模型参数规模从30亿到70亿不等。本卡片介绍的是SEA-LION-v1-3B版本。
SEA-LION是东南亚语言一体化网络(Southeast Asian Languages In One Network)的缩写。
模型详情
模型描述
SEA-LION模型是自然语言处理领域的重要突破,专门针对东南亚区域语境进行训练。
SEA-LION-v1-3B基于强大的MPT架构构建,词汇量达256K。
该模型采用我们定制的SEABPETokenizer进行分词,该分词器专为东南亚语言优化,确保最佳模型性能。
SEA-LION-v1-3B的训练数据包含9800亿token。
- 开发机构: 新加坡AI产品支柱团队
- 资助方: 新加坡国家研究基金会(NRF)
- 模型类型: 解码器
- 支持语言: 英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语、老挝语
- 许可证: MIT许可证
性能基准
SEA-LION-v1-3B在英语通用任务上的平均表现(根据Hugging Face的LLM排行榜测量):
模型 |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
平均分 |
SEA-LION 3B |
36.26 |
64.59 |
24.07 |
36.46 |
40.35 |
训练详情
数据
SEA-LION-v1-3B的训练使用了9800亿token的以下数据:
数据来源 |
唯一token数 |
倍数 |
总token数 |
占比 |
RefinedWeb - 英语 |
571.3B |
1 |
571.3B |
58.20% |
mC4 - 中文 |
91.2B |
1 |
91.2B |
9.29% |
mC4 - 印尼语 |
3.68B |
4 |
14.7B |
1.50% |
mC4 - 马来语 |
0.72B |
4 |
2.9B |
0.29% |
mC4 - 菲律宾语 |
1.32B |
4 |
5.3B |
0.54% |
mC4 - 缅甸语 |
1.2B |
4 |
4.9B |
0.49% |
mC4 - 越南语 |
63.4B |
1 |
63.4B |
6.46% |
mC4 - 泰语 |
5.8B |
2 |
11.6B |
1.18% |
WangChanBERTa - 泰语 |
5B |
2 |
10B |
1.02% |
mC4 - 老挝语 |
0.27B |
4 |
1.1B |
0.12% |
mC4 - 高棉语 |
0.97B |
4 |
3.9B |
0.40% |
mC4 - 泰米尔语 |
2.55B |
4 |
10.2B |
1.04% |
the Stack - Python |
20.9B |
2 |
41.8B |
4.26% |
the Stack - Javascript |
55.6B |
1 |
55.6B |
5.66% |
the Stack - Shell |
1.2B5 |
2 |
2.5B |
0.26% |
the Stack - SQL |
6.4B |
2 |
12.8B |
1.31% |
the Stack - Markdown |
26.6B |
1 |
26.6B |
2.71% |
RedPajama - StackExchange |
21.2B |
1 |
21.2B |
2.16% |
RedPajama - ArXiv |
30.6B |
1 |
30.6B |
3.12% |
基础设施
SEA-LION-v1-3B使用MosaicML Composer在以下硬件上训练:
训练详情 |
SEA-LION-v1-3B |
AWS EC2 p4d.24xlarge |
30个实例 |
Nvidia A100 40GB GPU |
240块 |
训练时长 |
14天 |
配置
超参数 |
SEA-LION-v1-3B |
精度 |
bfloat16 |
优化器 |
decoupled_adamw |
调度器 |
cosine_with_warmup |
学习率 |
1.6e-4 |
全局批大小 |
1200 |
微批大小 |
5 |
技术规格
模型架构与目标
SEA-LION-v1-3B是采用MPT架构的解码器模型。
参数 |
SEA-LION-v1-3B |
层数 |
32 |
d_model |
2560 |
头维度 |
20 |
词汇量 |
256000 |
序列长度 |
2048 |
分词器详情
我们从训练数据中采样2000万行来训练分词器。
训练框架采用SentencePiece。
分词器类型为字节对编码(BPE)。