sealion-bert-base开源多语言模型 - 专为东南亚11种语言优化，轻松处理语言任务

首页

Sealion Bert Base

由 aisingapore 开发

SEA-LION-BERT 是一个针对东南亚语言优化的多语言 BERT 模型，支持 11 种语言，基于 MosaicBERT 架构构建。

大型语言模型

Transformers

支持多种语言开源协议:MIT #东南亚多语言处理 #定制化BPE分词 #MosaicBERT架构

下载量 186

发布时间 : 11/16/2023

模型简介

SEA-LION-BERT 是由 AI Singapore 开发的多语言 BERT 模型，专门针对东南亚语言进行优化，能够有效处理包括英语、中文、印尼语、马来语等在内的 11 种语言的相关任务。

模型特点

多语言支持

支持 11 种东南亚语言，包括英语、中文、印尼语、马来语等。

优化的分词器

采用定制的 SEABPETokenizer 进行分词，针对东南亚语言优化，保障模型性能。

高效训练

基于 MosaicML Composer 在 4 个 Nvidia A100 40GB GPU 上训练 14 天完成。

模型能力

多语言文本处理

掩码语言建模

东南亚语言理解

使用案例

自然语言处理

多语言文本分类

对东南亚语言的文本进行分类任务。

语言模型预训练

作为基础模型进行下游任务的微调。

🚀 SEA-LION-BERT

SEA-LION 代表 东南亚语言一网打尽（Southeast Asian Languages In One Network）。这是 SEA-LION-BERT 基础模型的介绍卡片，该模型可助力处理多种东南亚语言的相关任务，提升多语言处理的效率和效果。

🚀 快速开始

以下代码展示了如何使用 SEA-LION-BERT 模型：

from transformers import AutoModelForMaskedLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)

# prepare input
text = "Give me a <|mask|>!!!"
encoded_input = tokenizer(text, return_tensors='pt')

✨ 主要特性

基于 MosaicBERT 架构构建，能有效处理多语言任务。
采用定制的 SEABPETokenizer 进行分词，针对东南亚语言优化，保障模型性能。
支持多种语言，包括英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语和老挝语。

📦 安装指南

文档未提及具体安装步骤，可参考 transformers 库的官方安装说明来安装所需依赖。

💻 使用示例

基础用法

from transformers import AutoModelForMaskedLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained('aisingapore/sealion-bert-base', trust_remote_code=True)

# prepare input
text = "Give me a <|mask|>!!!"
encoded_input = tokenizer(text, return_tensors='pt')

📚 详细文档

模型详情

属性	详情
开发者	AI Singapore 产品支柱团队
资助方	新加坡国家研究基金会
模型类型	编码器
支持语言	英语、中文、印尼语、马来语、泰语、越南语、菲律宾语、泰米尔语、缅甸语、高棉语、老挝语
许可证	MIT 许可证

训练详情

数据

SEA-LION 在以下 7900 亿个标记的数据集上进行训练：

数据源	标记数	百分比
RefinedWeb - 英语	5713 亿	72.26%
mC4 - 中文	912 亿	11.54%
mC4 - 印尼语	147 亿	1.86%
mC4 - 马来语	29 亿	0.36%
mC4 - 菲律宾语	53 亿	0.67%
mC4 - 缅甸语	49 亿	0.61%
mC4 - 越南语	634 亿	8.02%
mC4 - 泰语	216 亿	2.74%
mC4 - 老挝语	11 亿	0.14%
mC4 - 高棉语	39 亿	0.50%
mC4 - 泰米尔语	102 亿	1.29%