license: mit
datasets:
- Shushant/nepali
language:
- ne
metrics:
- perplexity
library_name: transformers
pipeline_tag: fill-mask
尼泊尔语BERT
基于尼泊尔语新闻数据的掩码语言模型,训练数据来自多个尼泊尔新闻网站,包含约1000万条尼泊尔语句子,内容主要为新闻。
该模型是在Bert Base Uncased基础上微调的,训练数据来自尼泊尔新闻门户网站爬取的4.6GB文本数据。
在评估集上的表现如下:
模型描述
基于BERT基础架构进行预训练。
用途与限制
该模型可用于任何与梵文(Devanagari)语言相关的自然语言处理任务。在训练时,这是针对梵文数据集开发的最先进模型。通过困惑度(Perplexity)8.56的内在评估达到了这一水平,而在尼泊尔推文情感分析的外在评估中,其表现优于其他现有的尼泊尔语掩码语言模型。
训练与评估数据
训练语料库由从不同新闻门户爬取的85467条新闻组成,是初步实验数据集,文本数据量约为4.3GB。评估数据包含少量新闻文章,文本量约为12MB。
训练过程
使用Huggingface的Trainer API进行掩码语言模型预训练,训练耗时约3天8小时57分钟,在Tesla V100 GPU上完成。Tesla V100拥有640个Tensor Core,是全球首款突破100 teraFLOPS(TFLOPS)深度学习性能的GPU。此GPU由加德满都大学(KU)超级计算机提供支持,感谢KU管理团队。
使用方法:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")
from transformers import pipeline
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
from pprint import pprint
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))
数据描述
训练数据约4.6GB尼泊尔语文本语料,收集自多个来源,包括尼泊尔新闻网站和OSCAR尼泊尔语语料库。
论文与引用详情
如果您想了解该语言模型的实现细节,可以阅读完整论文:
https://www.researchgate.net/publication/375019515_NepaliBERT_Pre-training_of_Masked_Language_Model_in_Nepali_Corpus
纯文本引用
S. Pudasaini, S. Shakya, A. Tamang, S. Adhikari, S. Thapa and S. Lamichhane, "NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus," 2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Kirtipur, Nepal, 2023, pp. 325-330, doi: 10.1109/I-SMAC58438.2023.10290690.
Bibtex引用
@INPROCEEDINGS{10290690,
author={Pudasaini, Shushanta and Shakya, Subarna and Tamang, Aakash and Adhikari, Sajjan and Thapa, Sunil and Lamichhane, Sagar},
booktitle={2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC)},
title={NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus},
year={2023},
volume={},
number={},
pages={325-330},
doi={10.1109/I-SMAC58438.2023.10290690}}