微件:
- 文本: "我喜欢和他们交谈感觉很好"
- 文本: "我们祝愿您愉快的"
- 文本: "所有美好的事物都有一个"
印地语RoBERTa基础模型
使用掩码语言建模(MLM)目标在印地语上预训练的模型。此处提供更具交互性和对比性的演示。
这是由Hugging Face组织、谷歌赞助TPU使用的Flax/Jax社区周活动的一部分。
模型描述
印地语RoBERTa是一个基于海量印地语数据(mc4、oscar和indic-nlp数据集组合)预训练的transformers模型。
使用方法
可直接通过pipeline进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
>>> unmasker("हम आपके सुखद <mask> की कामना करते हैं")
[{'score': 0.3310680091381073,
'sequence': 'हम आपके सुखद सफर की कामना करते हैं',
'token': 1349,
'token_str': ' सफर'},
{'score': 0.15317578613758087,
'sequence': 'हम आपके सुखद पल की कामना करते हैं',
'token': 848,
'token_str': ' पल'},
{'score': 0.07826550304889679,
'sequence': 'हम आपके सुखद समय की कामना करते हैं',
'token': 453,
'token_str': ' समय'},
{'score': 0.06304813921451569,
'sequence': 'हम आपके सुखद पहल की कामना करते हैं',
'token': 404,
'token_str': ' पहल'},
{'score': 0.058322224766016006,
'sequence': 'हम आपके सुखद अवसर की कामना करते हैं',
'token': 857,
'token_str': ' अवसर'}]
训练数据
印地语RoBERTa模型基于以下数据集联合预训练:
训练流程
预处理
文本采用字节级Byte-Pair编码(BPE)进行分词,词汇表大小为50265。模型输入为512个连续token片段,可能跨文档。新文档开头用<s>
标记,结尾用</s>
标记。
掩码策略细节如下:
- 15%的token被掩码
- 其中80%替换为
<mask>
- 10%替换为随机token
- 剩余10%保持不变
与BERT不同,掩码在预训练期间动态进行(每轮变化,非固定)
预训练
模型在Google Cloud Engine TPUv3-8机器(335GB内存,1000GB硬盘,96CPU核心)上训练。使用mC4、oscar等上述数据集的随机混合进行训练。训练日志见wandb。
评估结果
印地语RoBERTa在多项下游任务中评估,结果如下:
任务 |
类型 |
IndicBERT |
HindiBERTa |
Indic Transformers Hindi BERT |
RoBERTa Hindi Guj San |
RoBERTa Hindi |
BBC新闻分类 |
体裁分类 |
76.44 |
66.86 |
77.6 |
64.9 |
73.67 |
WikiNER |
token分类 |
- |
90.68 |
95.09 |
89.61 |
92.76 |
IITP产品评论 |
情感分析 |
78.01 |
73.23 |
78.39 |
66.16 |
75.53 |
IITP电影评论 |
情感分析 |
60.97 |
52.26 |
70.65 |
49.35 |
61.29 |
团队成员
致谢
衷心感谢Hugging Face🤗和Google Jax/Flax团队举办如此精彩的社区周活动,特别是提供强大的计算资源。特别感谢Suraj Patil和Patrick von Platen在整个活动期间的指导。
