license: apache-2.0
KeyBART模型
KeyBART模型基于论文《从文本中学习关键短语的丰富表示》(发表于NAACL 2022会议论文集,论文链接:https://aclanthology.org/2022.findings-naacl.67.pdf),采用BART架构进行预训练,以生成符合CatSeqD格式的串联关键短语序列。
我们提供了下游评估设置的示例,并展示了其在零样本设置下用于文本到文本生成的能力。
下游评估
关键短语生成
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("bloomberg/KeyBART")
model = AutoModelForSeq2SeqLM.from_pretrained("bloomberg/KeyBART")
from datasets import load_dataset
dataset = load_dataset("midas/kp20k")
报告结果:
显式关键短语生成
|
Inspec |
|
NUS |
|
Krapivin |
|
SemEval |
|
KP20k |
|
模型 |
F1@5 |
F1@M |
F1@5 |
F1@M |
F1@5 |
F1@M |
F1@5 |
F1@M |
F1@5 |
F1@M |
catSeq |
22.5 |
26.2 |
32.3 |
39.7 |
26.9 |
35.4 |
24.2 |
28.3 |
29.1 |
36.7 |
catSeqTG |
22.9 |
27 |
32.5 |
39.3 |
28.2 |
36.6 |
24.6 |
29.0 |
29.2 |
36.6 |
catSeqTG-2RF1 |
25.3 |
30.1 |
37.5 |
43.3 |
30 |
36.9 |
28.7 |
32.9 |
32.1 |
38.6 |
GANMR |
25.8 |
29.9 |
34.8 |
41.7 |
28.8 |
36.9 |
N/A |
N/A |
30.3 |
37.8 |
ExHiRD-h |
25.3 |
29.1 |
N/A |
N/A |
28.6 |
34.7 |
28.4 |
33.5 |
31.1 |
37.4 |
Transformer (Ye et al., 2021) |
28.15 |
32.56 |
37.07 |
41.91 |
31.58 |
36.55 |
28.71 |
32.52 |
33.21 |
37.71 |
BART* |
23.59 |
28.46 |
35.00 |
42.65 |
26.91 |
35.37 |
26.72 |
31.91 |
29.25 |
37.51 |
KeyBART-DOC* |
24.42 |
29.57 |
31.37 |
39.24 |
24.21 |
32.60 |
24.69 |
30.50 |
28.82 |
37.59 |
KeyBART* |
24.49 |
29.69 |
34.77 |
43.57 |
29.24 |
38.62 |
27.47 |
33.54 |
30.71 |
39.76 |
KeyBART* (零样本) |
30.72 |
36.89 |
18.86 |
21.67 |
18.35 |
20.46 |
20.25 |
25.82 |
12.57 |
15.41 |
隐式关键短语生成
|
Inspec |
|
NUS |
|
Krapivin |
|
SemEval |
|
KP20k |
|
模型 |
F1@5 |
F1@M |
F1@5 |
F1@M |
F1@5 |
F1@M |
F1@5 |
F1@M |
F1@5 |
F1@M |
catSeq |
0.4 |
0.8 |
1.6 |
2.8 |
1.8 |
3.6 |
1.6 |
2.8 |
1.5 |
3.2 |
catSeqTG |
0.5 |
1.1 |
1.1 |
1.8 |
1.8 |
3.4 |
1.1 |
1.8 |
1.5 |
3.2 |
catSeqTG-2RF1 |
1.2 |
2.1 |
1.9 |
3.1 |
3.0 |
5.3 |
2.1 |
3.0 |
2.7 |
5.0 |
GANMR |
1.3 |
1.9 |
2.6 |
3.8 |
4.2 |
5.7 |
N/A |
N/A |
3.2 |
4.5 |
ExHiRD-h |
1.1 |
2.2 |
N/A |
N/A |
2.2 |
4.3 |
1.7 |
2.5 |
1.6 |
3.2 |
Transformer (Ye et al., 2021) |
1.02 |
1.94 |
2.82 |
4.82 |
3.21 |
6.04 |
2.05 |
2.33 |
2.31 |
4.61 |
BART* |
1.08 |
1.96 |
1.80 |
2.75 |
2.59 |
4.91 |
1.34 |
1.75 |
1.77 |
3.56 |
KeyBART-DOC* |
0.99 |
2.03 |
1.39 |
2.74 |
2.40 |
4.58 |
1.07 |
1.39 |
1.69 |
3.38 |
KeyBART* |
0.95 |
1.81 |
1.23 |
1.90 |
3.09 |
6.08 |
1.96 |
2.65 |
2.03 |
4.26 |
KeyBART* (零样本) |
1.83 |
2.92 |
1.46 |
2.19 |
1.29 |
2.09 |
1.12 |
1.45 |
0.70 |
1.14 |
抽象摘要生成
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("bloomberg/KeyBART")
model = AutoModelForSeq2SeqLM.from_pretrained("bloomberg/KeyBART")
from datasets import load_dataset
dataset = load_dataset("cnn_dailymail")
报告结果:
模型 |
R1 |
R2 |
RL |
BART (Lewis et al., 2019) |
44.16 |
21.28 |
40.9 |
BART* |
42.93 |
20.12 |
39.72 |
KeyBART-DOC* |
42.92 |
20.07 |
39.69 |
KeyBART* |
43.10 |
20.26 |
39.90 |
零样本设置
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("bloomberg/KeyBART")
model = AutoModelForSeq2SeqLM.from_pretrained("bloomberg/KeyBART")
或使用HuggingFace提供的托管推理API控制台:https://huggingface.co/bloomberg/KeyBART
零样本示例输出:
输入:本研究探索如何训练面向特定任务的语言模型,旨在从文本文档中学习关键短语的丰富表示。我们尝试了不同的掩码策略,在判别式和生成式设置下预训练Transformer语言模型(LMs)。在判别式设置中,我们提出了新的预训练目标——带替换的关键短语边界填充(KBIR),当使用KBIR预训练的LM针对关键短语提取任务进行微调时,性能较SOTA有显著提升(F1最高提升9.26分)。在生成式设置中,我们为BART引入了新的预训练设置——KeyBART,它以CatSeq格式生成与输入文本相关的关键短语,而非去噪后的原始输入。这也使得关键短语生成性能较SOTA有所提升(F1@M最高提升4.33分)。此外,我们还对预训练语言模型在命名实体识别(NER)、问答(QA)、关系抽取(RE)、抽象摘要等任务上进行了微调,并取得了与SOTA相当的性能,表明学习关键短语的丰富表示确实有益于许多其他基础NLP任务。
输出:语言模型;关键短语生成;新预训练目标;预训练设置;
引用
请使用以下BibTeX条目引用本工作:
@inproceedings{kulkarni-etal-2022-learning,
title = "学习文本中关键短语的丰富表示",
author = "Kulkarni, Mayank and
Mahata, Debanjan and
Arora, Ravneet and
Bhowmik, Rajarshi",
booktitle = "NAACL 2022计算语言学协会发现集",
month = "7月",
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.findings-naacl.67",
doi = "10.18653/v1/2022.findings-naacl.67",
pages = "891--906",
abstract = "本研究探索如何训练面向特定任务的语言模型,旨在从文本文档中学习关键短语的丰富表示。我们尝试了不同的掩码策略,在判别式和生成式设置下预训练Transformer语言模型(LMs)。在判别式设置中,我们提出了新的预训练目标——带替换的关键短语边界填充(KBIR),当使用KBIR预训练的LM针对关键短语提取任务进行微调时,性能较SOTA有显著提升(F1最高提升8.16分)。在生成式设置中,我们为BART引入了新的预训练设置——KeyBART,它以CatSeq格式生成与输入文本相关的关键短语,而非去噪后的原始输入。这也使得关键短语生成性能较SOTA有所提升(F1@M最高提升4.33分)。此外,我们还对预训练语言模型在命名实体识别(NER)、问答(QA)、关系抽取(RE)、抽象摘要等任务上进行了微调,并取得了与SOTA相当的性能,表明学习关键短语的丰富表示确实有益于许多其他基础NLP任务。",
}
如有任何问题,请联系dmahata@bloomberg.net