NusaBERT-base开源多语言编码器 - 支持13种印尼语言处理

首页

Nusabert Base

由 LazarusNLP 开发

NusaBERT基础版是基于BERT架构的多语言编码器语言模型，支持13种印度尼西亚地区语言，在多个开源语料库上进行了预训练。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #印尼群岛多语言 #文化敏感BERT #低资源语言优化

下载量 68

发布时间 : 2/21/2024

模型简介

NusaBERT是基于BERT架构的多语言编码器语言模型，专门针对印度尼西亚及周边地区的13种语言进行了优化，适用于各种自然语言处理任务。

模型特点

多语言支持

支持13种印度尼西亚及周边地区的语言，包括主流语言和方言

大规模预训练

在约160亿词元的多样化语料库上进行预训练

优化性能

在保留测试集上取得0.6866的准确率和4.4266的困惑度

模型能力

文本理解

语言建模

多语言处理

使用案例

自然语言处理

文本分类

对印度尼西亚地区多种语言的文本进行分类

命名实体识别

识别印度尼西亚地区文本中的实体

🚀 NusaBERT Base

NusaBERT Base是一个基于BERT架构的多语言编码器语言模型。它在开源语料库上进行了持续预训练，解决了多语言处理的难题，为印尼语及相关语言的自然语言处理任务提供了强大的支持。

🚀 快速开始

在🤗Transformers中使用

from transformers import AutoTokenizer, AutoModelForMaskedLM

model_checkpoint = "LazarusNLP/NusaBERT-base"

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)

✨ 主要特性

基于BERT架构的多语言编码器语言模型，支持印尼语、亚齐语、巴厘语等多种语言。
在多个开源语料库上进行持续预训练，在验证集上取得了较好的评估指标，如eval_accuracy达到0.6866。

📦 安装指南

文档未提及安装步骤，如需使用，可参考🤗Transformers库的安装方法。

📚 详细文档

模型详情

属性	详情
开发者	LazarusNLP
微调基础模型	IndoBERT base p1
模型类型	基于编码器的BERT语言模型
支持语言	印尼语、亚齐语、巴厘语、班贾尔语、布吉斯语、戈龙塔洛语、爪哇语、万隆语、米南加保语、马来语、尼亚斯语、巽他语、德顿语
许可证	Apache 2.0
联系方式	LazarusNLP

训练数据集

预训练过程中使用了来自以下语料库的约160亿个标记：

训练超参数

训练过程中使用了以下超参数：

learning_rate：0.0003
train_batch_size：256
eval_batch_size：256
seed：42
optimizer：Adam，betas=(0.9, 0.999)，epsilon=1e - 08
lr_scheduler_type：线性
lr_scheduler_warmup_steps：24000
training_steps：500000

框架版本

Transformers 4.37.2
Pytorch 2.2.0+cu118
Datasets 2.17.1
Tokenizers 0.15.1

🔧 技术细节

该模型基于🤗Transformers PyTorch框架进行训练，所有训练均在NVIDIA H100 GPU上完成。通过在多个开源语料库上进行持续预训练，不断调整超参数，以提高模型在多语言任务上的性能。

📄 许可证

本模型以Apache 2.0许可证发布。

致谢

NusaBERT Base由以下人员用心开发：

引用

@misc{wongso2024nusabert,
  title={NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural}, 
  author={Wilson Wongso and David Samuel Setiawan and Steven Limcorn and Ananto Joyoadikusumo},
  year={2024},
  eprint={2403.01817},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}