许可证: mit
标签:
- 训练生成
模型索引:
- 名称: IndoBERT SQuAD
结果: []
小部件:
- 文本: "乌布位于哪个地区?"
上下文: "乌布是一个传统村落,同时也是印度尼西亚巴厘岛吉安雅地区的旅游目的地。乌布尤其受外国游客欢迎,因其坐落于层层梯田与悬崖森林之间,自然风光极为优美。此外,乌布以蓬勃发展的艺术与文化闻名。"
微调版IndoBERT-SQuAD
本模型是基于indolem/indobert-base-uncased在None数据集上微调的版本。在评估集上取得如下结果:
IndoBERT简介
IndoBERT是印尼语版BERT模型。训练数据整合自三大来源,超过2.2亿词:
- 印尼语维基百科(7400万词)
- Kompas、Tempo(Tala等,2003)和Liputan6的新闻文章(合计5500万词)
- 印尼语网络语料库(Medved和Suchomel,2017)(9000万词)
模型训练了240万步(180个周期),开发集最终困惑度为3.97(与英文BERT-base相当)。该模型用于测试IndoLEM基准——涵盖印尼语形态句法、语义和篇章的七项任务。
训练与评估数据
SQuAD2.0将SQuAD1.1的10万个问题与超过5万个对抗性编写的不可回答问题相结合。要在SQuAD2.0表现优异,系统必须既能回答问题,又能判断段落是否支持答案。
数据集 |
划分 |
样本量 |
SQuAD2.0 |
训练集 |
13万 |
SQuAD2.0 |
评估集 |
1.23万 |
训练流程
模型在Tesla T4 GPU和12GB内存环境下训练。
训练超参数
- 学习率: 2e-05
- 训练批大小: 16
- 评估批大小: 16
- 随机种子: 42
- 优化器: Adam(β1=0.9, β2=0.999, ε=1e-08)
- 学习率调度器类型: 线性
- 训练轮次: 3
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
1.4098 |
1.0 |
8202 |
1.3860 |
1.1716 |
2.0 |
16404 |
1.8555 |
1.2909 |
3.0 |
24606 |
1.8025 |
使用管道
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="esakrissa/IndoBERT-SQuAD",
tokenizer="esakrissa/IndoBERT-SQuAD"
)
qa_pipeline({
'context': """自1920年代起,乌布便在西方游客中享有盛名。当时德国画家Walter Spies与荷兰画家Rudolf Bonnet定居于此,并得到乌布王室成员Tjokorda Gde Agung Sukawati的支持。如今他们的作品可在乌布画宫博物馆观赏。""",
'question': "乌布从何时开始闻名于西方游客?"
})
输出:
{
'answer': '1920年代',
'start': 18,
'end': 25,
'score': 0.8675463795661926,
}
GitHub项目
项目地址
在线演示
IndoBERT SQuAD演示空间
参考文献
[1]Fajri Koto, Afshin Rahimi, Jey Han Lau, Timothy Baldwin. 2020. 《IndoLEM与IndoBERT:印尼语NLP的基准数据集与预训练语言模型》. 第28届COLING会议论文集.
[2]rifkybujana/IndoBERT-QA
框架版本
- Transformers 4.25.1
- PyTorch 1.13.0+cu116
- Datasets 2.7.1
- Tokenizers 0.13.2