SEA-LION-v1-3B开源大语言模型 - 支持11种东南亚语言对话交流

首页

SEA LION V1 3B

由 aisingapore 开发

SEA-LION是针对东南亚地区优化的多语言大语言模型，支持11种东南亚语言，基于MPT架构构建。

大型语言模型

Transformers

支持多种语言开源协议:MIT #东南亚多语言 #大词汇量256K #MPT架构优化

下载量 1,340

发布时间 : 10/24/2023

模型简介

SEA-LION是一系列针对东南亚语言优化的预训练大语言模型，旨在提升该地区语言的自然语言处理能力。v1-3B版本具有30亿参数，支持英语、中文及9种东南亚语言。

模型特点

东南亚语言优化

专门针对11种东南亚语言进行训练，包括低资源语言如缅甸语、高棉语等

定制分词器

使用专为东南亚语言设计的SEABPETokenizer，提升多语言处理性能

大规模训练数据

在9800亿token的多语言数据上训练，包含多种专业领域数据

高效架构

基于MPT架构优化，在3B参数规模下保持良好性能

模型能力

多语言文本生成

跨语言理解

代码生成(Python/JavaScript等)

学术文本处理

东南亚语言翻译

使用案例

多语言应用

东南亚语言客服机器人

为东南亚地区企业提供多语言客户支持

支持11种语言的自动问答

跨语言信息检索

处理东南亚多语言内容搜索请求

实现不同语言间的语义搜索

教育

语言学习助手

帮助学习东南亚语言的学习者

提供语法解释和例句生成

🚀 SEA-LION-v1-3B

SEA-LION是一系列大语言模型（LLM），针对东南亚（SEA）地区进行了预训练和指令微调。这些模型的参数规模从30亿到70亿不等。本文档是关于SEA-LION-v1-3B的介绍。

SEA-LION代表着“将东南亚语言整合在一个网络中”。

📚 模型详情

🔍 模型描述

SEA-LION模型是自然语言处理领域的一次重大飞跃，专门针对东南亚地区的语境进行训练。

SEA-LION-v1-3B基于强大的MPT架构构建，词汇量为256K。

在分词方面，该模型采用了我们定制的SEABPETokenizer，它是专门为东南亚语言量身定制的，确保了模型的最佳性能。

SEA-LION-v1-3B的训练数据包含9800亿个token。

开发者：新加坡人工智能公司产品支柱团队
资助方：新加坡国家研究基金会
模型类型：解码器
支持语言：英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语、老挝语
许可证：MIT许可证

📊 性能基准

SEA-LION-v1-3B在英语通用任务上的平均表现（根据Hugging Face的大语言模型排行榜衡量）如下：

模型	ARC	HellaSwag	MMLU	TruthfulQA	平均
SEA-LION 3B	36.26	64.59	24.07	36.46	40.35

🔬 训练详情

📈 数据

SEA-LION-v1-3B在以下9800亿个token的数据上进行训练：

数据源	唯一token数	乘数	总token数	百分比
RefinedWeb - 英语	5713亿	1	5713亿	58.20%
mC4 - 中文	912亿	1	912亿	9.29%
mC4 - 印尼语	36.8亿	4	147亿	1.50%
mC4 - 马来语	7.2亿	4	29亿	0.29%
mC4 - 菲律宾语	13.2亿	4	53亿	0.54%
mC4 - 缅甸语	12亿	4	49亿	0.49%
mC4 - 越南语	634亿	1	634亿	6.46%
mC4 - 泰语	58亿	2	116亿	1.18%
WangChanBERTa - 泰语	50亿	2	100亿	1.02%
mC4 - 老挝语	2.7亿	4	11亿	0.12%
mC4 - 高棉语	9.7亿	4	39亿	0.40%
mC4 - 泰米尔语	25.5亿	4	102亿	1.04%
the Stack - Python	209亿	2	418亿	4.26%
the Stack - Javascript	556亿	1	556亿	5.66%
the Stack - Shell	12.5亿	2	25亿	0.26%
the Stack - SQL	64亿	2	128亿	1.31%
the Stack - Markdown	266亿	1	266亿	2.71%
RedPajama - StackExchange	212亿	1	212亿	2.16%
RedPajama - ArXiv	306亿	1	306亿	3.12%

🖥️ 基础设施

SEA-LION-v1-3B使用MosaicML Composer在以下硬件上进行训练：

训练详情	SEA-LION-v1-3B
AWS EC2 p4d.24xlarge	30 个实例
Nvidia A100 40GB GPU	240 个
训练时长	14 天

⚙️ 配置

超参数	SEA-LION-v1-3B
精度	bfloat16
优化器	decoupled_adamw
调度器	cosine_with_warmup
学习率	1.6e-4
全局批量大小	1200
微批量大小	5

🛠️ 技术规格

📐 模型架构与目标

SEA-LION-v1-3B是一个基于MPT架构的解码器模型。

参数	SEA-LION-v1-3B
层数	32
d_model	2560
头维度	20
词汇量	256000
序列长度	2048

📋 分词器详情

我们从训练数据中抽取了2000万行来训练分词器。训练框架为SentencePiece。分词器类型为字节对编码（BPE）。

👥 团队成员

Lam Wen Zhi Clarence
Leong Wei Qi
Li Yier
Liu Bing Jie Darius
Lovenia Holy
Montalan Jann Railey
Ng Boon Cheong Raymond
Ngui Jian Gang
Nguyen Thanh Ngan
Ong Tat-Wee David
Rengarajan Hamsawardhini
Susanto Yosephine
Tai Ngee Chia
Tan Choon Meng
Teo Jin Howe
Teo Eng Sipp Leslie
Teo Wei Yi
Tjhi William
Yeo Yeow Tong
Yong Xianbin

🙏 致谢

新加坡人工智能是由新加坡国家研究基金会支持的国家项目，由新加坡国立大学主办。本材料中表达的任何观点、研究结果、结论或建议均为作者个人观点，不反映新加坡国家研究基金会的意见。

📞 联系我们

如需更多信息，请通过SEA-LION咨询表单与我们联系。

SEA-LION的GitHub仓库链接

⚠️ 免责声明

这是基础模型的仓库。该模型尚未进行安全对齐。开发者和用户应自行进行安全微调及相关安全措施。在任何情况下，作者均不对因使用发布的权重和代码而产生的任何索赔、损害或其他责任负责。

📚 参考文献

泰语预训练数据参考文献

@misc{lowphansirikul2021wangchanberta,
    title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
    author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
    year={2021},
    eprint={2101.09635},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}