语言:梵文
基于梵文训练的RoBERTa模型(SanBERTa)
模型大小(训练后):340MB
数据集:
维基百科文章(用于iNLTK),包含评估集。
来自CLTK的梵文片段
配置
参数 |
值 |
注意力头数 |
12 |
隐藏层数 |
6 |
隐藏层大小 |
768 |
词汇表大小 |
29407 |
训练:
- 在TPU上进行
- 用于语言建模
- 在多个周期内逐步将
--block_size
从128增加到256
评估
指标 |
值 |
困惑度(block_size=256 ) |
4.04 |
使用示例:
用于嵌入
tokenizer = AutoTokenizer.from_pretrained("surajp/SanBERTa")
model = RobertaModel.from_pretrained("surajp/SanBERTa")
op = tokenizer.encode("इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।", return_tensors="pt")
ps = model(op)
ps[0].shape
'''
输出:
--------
torch.Size([1, 47, 768])
用于<mask>预测
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="surajp/SanBERTa",
tokenizer="surajp/SanBERTa"
)
## इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।
fill_mask("इयं भाषा न केवल<mask> भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।")
ps = model(torch.tensor(enc).unsqueeze(1))
print(ps[0].shape)
'''
输出:
--------
[{'score': 0.7516744136810303,
'sequence': '<s> इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
'token': 280,
'token_str': 'à¤Ĥ'},
{'score': 0.06230105459690094,
'sequence': '<s> इयं भाषा न केवली भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
'token': 289,
'token_str': 'à¥Ģ'},
{'score': 0.055410224944353104,
'sequence': '<s> इयं भाषा न केवला भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
'token': 265,
'token_str': 'ा'},
...]
@misc{Parmar2020Sanberta,
author = {Parmar, Suraj},
title = {SanBERTa - 基于梵文训练的RoBERTa模型},
year = {2020},
month = {Jun},
publisher = {Hugging Face Model Hub},
url = {https://huggingface.co/surajp/SanBERTa}
}
它有效!!🎉 🎉 🎉
由Suraj Parmar/@parmarsuraj99创建 | LinkedIn
用❤️在印度制作