javanese-bert-small开源模型 - 助力爪哇语处理，免费使用精准语言分析

首页

Javanese Bert Small

由 w11wo 开发

基于BERT架构的爪哇语掩码语言模型，在爪哇语维基百科数据上微调训练

大型语言模型其他开源协议:MIT #爪哇语掩码预测 #维基百科微调 #多语言迁移学习

下载量 22

发布时间 : 3/2/2022

模型简介

该模型是专门针对爪哇语优化的BERT小型版本，主要用于爪哇语的掩码语言建模和文本特征提取任务。

模型特点

爪哇语优化

专门针对爪哇语进行微调训练，能更好地处理爪哇语文本

轻量级架构

采用BERT小型版架构，参数规模适中(110M)，计算资源需求较低

维基百科训练

基于最新爪哇语维基百科文章训练，涵盖广泛主题

模型能力

掩码语言预测

文本特征提取

爪哇语文本理解

使用案例

自然语言处理

爪哇语文本补全

预测被掩码的爪哇语词汇

示例输入：'Aku mangan sate ing [MASK] bareng konco-konco'

文本特征提取

为下游NLP任务提取爪哇语文本特征

🚀 爪哇语小型BERT模型

爪哇语小型BERT模型是一个基于掩码的语言模型，它利用BERT架构，在最新（2020年12月下旬）的爪哇语维基百科文章上进行训练，为爪哇语的自然语言处理任务提供了有力支持。

🚀 快速开始

爪哇语小型BERT模型是基于 BERT模型的掩码语言模型。它在最新（2020年12月下旬）的爪哇语维基百科文章上进行训练。

该模型最初是HuggingFace预训练的英文BERT模型，随后在爪哇语数据集上进行微调。在验证数据集（文章的20%）上，该模型的困惑度达到了22.00。所使用的许多技术基于 Sylvain Gugger 编写的Hugging Face教程笔记本，以及 Pierre Guillou 编写的微调教程笔记本。

训练该模型使用了Hugging Face的 Transformers 库，利用了基础BERT模型及其 Trainer 类。训练期间使用PyTorch作为后端框架，但该模型仍然与TensorFlow兼容。

✨ 主要特性

模型信息

属性	详情
模型类型	`javanese-bert-small`
参数量	1.1亿
架构	BERT Small
训练数据	爪哇语维基百科（319MB文本）

评估结果

该模型训练了5个轮次，训练结束后的最终结果如下：

训练损失	验证损失	困惑度	总时间
3.116	3.091	22.00	2:7:42

💻 使用示例

基础用法

作为掩码语言模型使用：

from transformers import pipeline

pretrained_name = "w11wo/javanese-bert-small"

fill_mask = pipeline(
    "fill-mask",
    model=pretrained_name,
    tokenizer=pretrained_name
)

fill_mask("Aku mangan sate ing [MASK] bareng konco-konco")

高级用法

在PyTorch中进行特征提取：

from transformers import BertModel, BertTokenizerFast

pretrained_name = "w11wo/javanese-bert-small"
model = BertModel.from_pretrained(pretrained_name)
tokenizer = BertTokenizerFast.from_pretrained(pretrained_name)

prompt = "Indonesia minangka negara gedhe."
encoded_input = tokenizer(prompt, return_tensors='pt')
output = model(**encoded_input)

📚 详细文档

免责声明

请记住，尽管数据集源自维基百科，但该模型并不总是能生成事实性文本。此外，维基百科文章中的偏差可能会延续到该模型的结果中。

作者信息

爪哇语小型BERT模型由 Wilson Wongso 训练和评估。所有计算和开发工作均在Google Colaboratory上使用其免费GPU完成。

引用信息

如果您在研究中使用了我们的任何模型，请引用：

@inproceedings{wongso2021causal,
    title={Causal and Masked Language Modeling of Javanese Language using Transformer-based Architectures},
    author={Wongso, Wilson and Setiawan, David Samuel and Suhartono, Derwin},
    booktitle={2021 International Conference on Advanced Computer Science and Information Systems (ICACSIS)},
    pages={1--7},
    year={2021},
    organization={IEEE}
}