language:
tags:
- 主题标注
license: apache-2.0
metrics:
- ndcg
MyModel
模型描述
这是论文《BART-TL: Weakly-Supervised Topic Label Generation》中的BART-TL-ng
模型。我们旨在使用生成方法解决主题标注任务,而非像先前最先进工作那样从标签池中选择。
更多细节可查阅论文或开源实现:https://github.com/CristianViorelPopa/BART-TL-topic-label-generation。
论文中提供了两个模型:
预期用途与限制
使用方法
模型输入为由空格分隔的单词序列表示的主题。此类主题可通过LDA生成,如同为模型微调数据集所做的那样。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
mname = "cristian-popa/bart-tl-ng"
tokenizer = AutoTokenizer.from_pretrained(mname)
model = AutoModelForSeq2SeqLM.from_pretrained(mname)
input = "site web google search website online internet social content user"
enc = tokenizer(input, return_tensors="pt", truncation=True, padding="max_length", max_length=128)
outputs = model.generate(
input_ids=enc.input_ids,
attention_mask=enc.attention_mask,
max_length=15,
min_length=1,
do_sample=False,
num_beams=25,
length_penalty=1.0,
repetition_penalty=1.5
)
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(decoded)
限制与偏差
对于微调领域之外的主题(如烹饪领域),模型可能无法生成准确的标签。
训练数据
模型在5个不同的StackExchange语料库(完整列表见https://archive.org/download/stackexchange)上微调:英语、生物学、经济学、法律和摄影。每个语料库使用LDA提取100个主题,经过连贯性筛选后用于最终模型。
训练过程
大型Facebook BART模型采用弱监督方式微调,结合了NETL方法的无监督候选选择与主题n-gram。数据集是从主题到标签的一对多映射。更多训练细节和参数参见论文或此笔记本。
评估结果
模型 |
Top-1平均分 |
Top-3平均分 |
Top-5平均分 |
nDCG-1 |
nDCG-3 |
nDCG-5 |
NETL (U) |
2.66 |
2.59 |
2.50 |
0.83 |
0.85 |
0.87 |
NETL (S) |
2.74 |
2.57 |
2.49 |
0.88 |
0.85 |
0.88 |
BART-TL-all |
2.64 |
2.52 |
2.43 |
0.83 |
0.84 |
0.87 |
BART-TL-ng |
2.62 |
2.50 |
2.33 |
0.82 |
0.84 |
0.85 |
BibTeX条目与引用信息
@inproceedings{popa-rebedea-2021-bart,
title = "{BART}-{TL}: 弱监督主题标签生成",
author = "Popa, Cristian 与
Rebedea, Traian",
booktitle = "第16届欧洲计算语言学协会会议论文集:主卷",
month = "4月",
year = "2021",
address = "线上",
publisher = "计算语言学协会",
url = "https://www.aclweb.org/anthology/2021.eacl-main.121",
pages = "1418--1425",
abstract = "我们提出了一种通过多重弱标注器为主题模型分配标签的新方案。该方法利用生成式Transformer学习最重要主题词与候选标签的精确表示。通过对预训练BART模型在大量由最先进非神经主题标注模型生成的潜在标签上进行微调,并辅以多种技术增强。所提出的BART-TL模型能以弱监督方式生成有价值的新标签,并可通过添加其他弱标注器或对类似任务进行远程监督来进一步提升。",
}