roberta-base-indonesian-522M开源印尼语预训练模型 - 支持不区分大小写文本处理

首页

Roberta Base Indonesian 522M

由 cahya 开发

基于RoBERTa-base架构的印尼语预训练模型，使用印尼语维基百科数据训练，不区分大小写。

大型语言模型其他开源协议:MIT #印尼语文本填充 #无大小写敏感 #维基百科预训练

下载量 454

发布时间 : 3/2/2022

模型简介

这是一个基于RoBERTa-base架构的模型，使用印尼语维基百科数据通过掩码语言建模（MLM）目标进行预训练。该模型不区分大小写，适用于印尼语文本处理任务。

模型特点

无大小写区分

模型不区分大小写，例如'indonesia'和'Indonesia'被视为相同。

基于RoBERTa架构

采用RoBERTa-base架构，优化了原始BERT的训练方法。

印尼语专用

专门针对印尼语进行预训练，适用于印尼语文本处理任务。

模型能力

掩码语言建模

文本特征提取

印尼语文本处理

使用案例

文本处理

掩码预测

预测文本中被掩码的单词

可准确预测印尼语文本中的缺失单词

文本特征提取

获取文本的向量表示

可用于下游NLP任务的特征输入

🚀 印尼语RoBERTa基础模型（不区分大小写）

本模型是基于RoBERTa基础架构，使用印尼语维基百科数据，通过掩码语言建模（MLM）目标进行预训练的模型。该模型不区分大小写，例如“indonesia”和“Indonesia”对它而言是一样的。它是使用印尼语数据集预训练的多个语言模型之一。关于其在下游任务（如文本分类、文本生成等）中的使用详情，可查看基于Transformer的印尼语语言模型。

🚀 快速开始

预期用途与限制

如何使用

你可以直接使用此模型进行掩码语言建模任务：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/roberta-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja <mask> supermarket")

以下是在PyTorch中使用该模型获取给定文本特征的方法：

from transformers import RobertaTokenizer, RobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = RobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

在TensorFlow中的使用方法如下：

from transformers import RobertaTokenizer, TFRobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = TFRobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

🔧 技术细节

训练数据

该模型使用了522MB的印尼语维基百科数据进行预训练。文本经过小写处理，并使用WordPiece进行分词，词汇表大小为32,000。模型的输入格式如下： <s> Sentence A </s> Sentence B </s>

📄 许可证

本项目采用MIT许可证。

📦 相关数据集

印尼语维基百科

💻 使用示例

基础用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/roberta-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja <mask> supermarket")

高级用法

PyTorch中获取文本特征

from transformers import RobertaTokenizer, RobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = RobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

TensorFlow中获取文本特征

from transformers import RobertaTokenizer, TFRobertaModel

model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = TFRobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)