🚀 SEA-LION-BERT
SEA-LION 代表 东南亚语言一网打尽(Southeast Asian Languages In One Network)。这是 SEA-LION-BERT 基础模型的介绍卡片,该模型可助力处理多种东南亚语言的相关任务,提升多语言处理的效率和效果。
🚀 快速开始
以下代码展示了如何使用 SEA-LION-BERT 模型:
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)
text = "Give me a <|mask|>!!!"
encoded_input = tokenizer(text, return_tensors='pt')
✨ 主要特性
- 基于 MosaicBERT 架构构建,能有效处理多语言任务。
- 采用定制的 SEABPETokenizer 进行分词,针对东南亚语言优化,保障模型性能。
- 支持多种语言,包括英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语和老挝语。
📦 安装指南
文档未提及具体安装步骤,可参考 transformers
库的官方安装说明来安装所需依赖。
💻 使用示例
基础用法
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)
text = "Give me a <|mask|>!!!"
encoded_input = tokenizer(text, return_tensors='pt')
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
AI Singapore 产品支柱团队 |
资助方 |
新加坡国家研究基金会 |
模型类型 |
编码器 |
支持语言 |
英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语、老挝语 |
许可证 |
MIT 许可证 |
训练详情
数据
SEA-LION 在以下 7900 亿个标记的数据集上进行训练:
数据源 |
标记数 |
百分比 |
RefinedWeb - 英语 |
5713 亿 |
72.26% |
mC4 - 中文 |
912 亿 |
11.54% |
mC4 - 印尼语 |
147 亿 |
1.86% |
mC4 - 马来语 |
29 亿 |
0.36% |
mC4 - 菲律宾语 |
53 亿 |
0.67% |
mC4 - 缅甸语 |
49 亿 |
0.61% |
mC4 - 越南语 |
634 亿 |
8.02% |
mC4 - 泰语 |
216 亿 |
2.74% |
mC4 - 老挝语 |
11 亿 |
0.14% |
mC4 - 高棉语 |
39 亿 |
0.50% |
mC4 - 泰米尔语 |
102 亿 |
1.29% |
基础设施
SEA-LION 使用 MosaicML Composer 在以下硬件上进行训练:
训练详情 |
SEA-LION-BERT |
Nvidia A100 40GB GPU |
4 |
训练时长 |
14 天 |
配置
超参数 |
SEA-LION-BERT |
精度 |
bfloat16 |
优化器 |
decoupled_adamw |
调度器 |
linear_decay_with_warmup |
学习率 |
5e-4 |
全局批量大小 |
448 |
微批量大小 |
56 |
🔧 技术细节
模型架构与目标
SEA-LION-BERT 是使用 MosaicBERT 架构的编码器模型。
参数 |
SEA-LION-BERT |
层数 |
12 |
d_model |
768 |
头维度 |
12 |
词汇量 |
256000 |
序列长度 |
128 |
分词器详情
我们从训练数据中抽取 2000 万行来训练分词器。训练框架为 SentencePiece,分词器类型为字节对编码(Byte-Pair Encoding,BPE)。
👥 团队成员
- Montalan Jann Railey
- Nguyen Thanh Ngan
- Rengarajan Hamsawardhini
- Teo Eng Sipp Leslie
- Tjhi William
🙏 致谢
AI Singapore 是由新加坡国家研究基金会支持的国家项目,由新加坡国立大学主办。本材料中表达的任何观点、研究结果、结论或建议均为作者个人观点,不反映新加坡国家研究基金会的意见。
📞 联系我们
如需更多信息,请通过 SEA-LION 咨询表单 与我们联系。