语言: su
标签:
- 巽他语-roberta-base
许可证: mit
数据集:
- mc4
- cc100
- oscar
- 维基百科
小部件:
- 文本: "Budi nuju di sakola."
巽他语RoBERTa基础模型
巽他语RoBERTa基础模型是基于RoBERTa模型的掩码语言模型。它在四个数据集上进行了训练:OSCAR的unshuffled_deduplicated_su
子集、巽他语的mC4子集、巽他语的CC100子集以及巽他语维基百科。
数据集的10%被保留用于评估。该模型从头开始训练,评估损失为1.952,评估准确率为63.98%。
该模型使用HuggingFace的Flax框架进行训练。训练过程中使用的所有必要脚本可以在文件和版本标签页中找到,同时训练指标通过Tensorboard记录。
模型
模型 |
参数数量 |
架构 |
训练/验证数据(文本) |
sundanese-roberta-base |
124M |
RoBERTa |
OSCAR, mC4, CC100, 维基百科 (758 MB) |
评估结果
模型训练了50个周期,以下是训练结束时的最终结果。
训练损失 |
验证损失 |
验证准确率 |
总时间 |
1.965 |
1.952 |
0.6398 |
6:24:51 |
使用方法
作为掩码语言模型
from transformers import pipeline
pretrained_name = "w11wo/sundanese-roberta-base"
fill_mask = pipeline(
"fill-mask",
model=pretrained_name,
tokenizer=pretrained_name
)
fill_mask("Budi nuju <mask> di sakola.")
在PyTorch中进行特征提取
from transformers import RobertaModel, RobertaTokenizerFast
pretrained_name = "w11wo/sundanese-roberta-base"
model = RobertaModel.from_pretrained(pretrained_name)
tokenizer = RobertaTokenizerFast.from_pretrained(pretrained_name)
prompt = "Budi nuju diajar di sakola."
encoded_input = tokenizer(prompt, return_tensors='pt')
output = model(**encoded_input)
免责声明
请考虑所有四个数据集中可能存在的偏见,这些偏见可能会影响该模型的结果。
作者
巽他语RoBERTa基础模型由Wilson Wongso训练和评估。
引用信息
@article{rs-907893,
author = {Wongso, Wilson
and Lucky, Henry
and Suhartono, Derwin},
journal = {Journal of Big Data},
year = {2022},
month = {Feb},
day = {26},
abstract = {巽他语在全球有超过3200万使用者,但该语言近期在自然语言理解方面的进展中获益甚微。与其他低资源语言一样,唯一的替代方案是对现有的多语言模型进行微调。本文中,我们在巽他语数据上预训练了三个基于Transformer的单语语言模型。在下游文本分类任务评估中,我们发现大多数单语模型尽管总体预训练数据较少,但表现优于更大的多语言模型。在后续分析中,我们的模型从巽他语预训练语料库的规模中获益显著,且未表现出社会偏见行为。我们发布了这些模型供其他研究人员和实践者使用。},
issn = {2693-5015},
doi = {10.21203/rs.3.rs-907893/v1},
url = {https://doi.org/10.21203/rs.3.rs-907893/v1}
}