MelayuBERT开源马来语语言模型 - 免费使用支持多框架处理文本

首页

Melayubert

由 StevenLimcorn 开发

基于BERT架构的马来语掩码语言模型，使用OSCAR数据集的马来语子集训练，支持PyTorch和TensorFlow框架。

大型语言模型

Transformers

其他开源协议:MIT #马来语掩码预测 #多框架支持 #低困惑度

下载量 15

发布时间 : 3/2/2022

模型简介

该模型是一个专门针对马来语的掩码语言模型，基于BERT架构开发，主要用于处理马来语文本的掩码预测任务。

模型特点

基于BERT架构

采用经典的BERT架构，确保模型在处理马来语文本时具有强大的性能。

使用OSCAR数据集训练

模型使用OSCAR数据集的马来语子集进行训练，确保了数据的多样性和广泛性。

支持PyTorch和TensorFlow

模型兼容两大主流深度学习框架，方便用户在不同环境中使用。

模型能力

掩码语言预测

马来语文本处理

使用案例

自然语言处理

马来语文本补全

用于预测和补全马来语文本中的掩码部分。

在验证集上达到9.46的困惑度指标。

🚀 马来语BERT

马来语BERT是一个基于BERT的掩码语言模型。它在OSCAR数据集上进行训练，具体使用的是unshuffled_original_ms子集。该模型以英文BERT模型为基础，在马来西亚语数据集上进行了微调。在20%的验证数据集上，该模型的困惑度达到了9.46。许多使用的技术基于由Sylvain Gugger编写的Hugging Face教程笔记本，以及由Pierre Guillou编写的微调教程笔记本。该模型同时支持PyTorch和TensorFlow使用。

✨ 主要特性

基于BERT架构，适用于马来语的掩码语言模型。
在OSCAR数据集的特定子集上训练，针对马来西亚语进行微调。
支持PyTorch和TensorFlow两种深度学习框架。

📦 安装指南

文档未提及安装步骤，此部分跳过。

💻 使用示例

基础用法

作为掩码语言模型使用：

from transformers import pipeline
pretrained_name = "StevenLimcorn/MelayuBERT"
fill_mask = pipeline(
    "fill-mask",
    model=pretrained_name,
    tokenizer=pretrained_name
)
fill_mask("Saya [MASK] makan nasi hari ini.")

高级用法

导入分词器和模型：

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("StevenLimcorn/MelayuBERT")

model = AutoModelForMaskedLM.from_pretrained("StevenLimcorn/MelayuBERT")