语言:
- 印地语
- 梵语
- 古吉拉特语
标签:
- 印度语系
许可证: MIT
数据集:
- 维基百科(印地语、梵语、古吉拉特语)
评估指标:
- 困惑度
RoBERTa-印地-古吉-梵语模型
模型描述
基于印地语、梵语和古吉拉特语维基百科文章训练的多语言RoBERTa类模型。分词器在合并文本上进行训练,但模型预训练阶段仅使用印地语文本,随后在梵语和古吉拉特语混合文本上进行微调,以期通过印地语预训练帮助模型学习相似语言。
配置参数
参数名 |
值 |
隐藏层维度 |
768 |
注意力头数 |
12 |
隐藏层数 |
6 |
词表大小 |
30522 |
模型类型 |
roberta |
使用场景与限制
使用方法
from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline
tokenizer = AutoTokenizer.from_pretrained("surajp/RoBERTa-hindi-guj-san")
model = AutoModelWithLMHead.from_pretrained("surajp/RoBERTa-hindi-guj-san")
fill_mask = pipeline(
"fill-mask",
model=model,
tokenizer=tokenizer
)
fill_mask("ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો <mask> હતો.")
'''
输出结果:
--------
[
{'score': 0.07849744707345963, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો જ હતો.</s>', 'token': 390},
{'score': 0.06273336708545685, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો ન હતો.</s>', 'token': 478},
{'score': 0.05160355195403099, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો થઇ હતો.</s>', 'token': 2075},
{'score': 0.04751499369740486, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો એક હતો.</s>', 'token': 600},
{'score': 0.03788900747895241, 'sequence': '<s> ગુજરાતમાં ૧૯મી માર્ચ સુધી કોઈ સકારાત્મક (પોઝીટીવ) રીપોર્ટ આવ્યો પણ હતો.</s>', 'token': 840}
]
训练数据
来自Kaggle的印地语、梵语和古吉拉特语维基百科清洗文本,包含训练集和评估集。该数据已应用于iNLTK项目
训练流程
- 在TPU上运行(使用
xla_spawn.py
脚本)
- 面向语言建模任务
- 分阶段将
--block_size
从128逐步提升至256
- 基于合并文本训练的分词器
- 先使用印地语预训练,再对梵语和古吉拉特语混合文本微调
--model_type distillroberta-base \
--model_name_or_path "/content/SanHiGujBERTa" \
--mlm_probability 0.20 \
--line_by_line \
--save_total_limit 2 \
--per_device_train_batch_size 128 \
--per_device_eval_batch_size 128 \
--num_train_epochs 5 \
--block_size 256 \
--seed 108 \
--overwrite_output_dir \
评估结果
困惑度 = 2.920005983224673