许可证:cc-by-4.0
语言:
- 波兰语
- 英语
数据集:
- posmac
任务标签:文本生成
任务参数:
- 禁止重复n元组大小=3
- 束搜索数=4
标签:
- 关键词生成
- 文本分类
- 其他
交互示例:
- 文本:"关键词:我们的vlT5模型是基于谷歌提出的Transformer编码器-解码器架构的关键词生成模型(https://huggingface.co/t5-base)。该模型通过科学论文摘要与标题的联合训练,能根据摘要内容生成精确但不一定完整的关键短语。"
示例标题:"英文示例1"
- 文本:"关键词:通过gamma参数每经过step_size个epoch对学习率进行衰减。需注意该衰减可能与此调度器外部的其他学习率调整同时发生。当last_epoch=-1时,将初始学习率设为lr。"
示例标题:"英文示例2"
- 文本:"关键词:1965年斯坦福大学开发的Dendral专家系统是人工智能与机器学习领域的重大突破。该系统旨在自动化分析鉴定有机化合物中未知分子的结构,其研究成果成为计算机首次在专业期刊发表的科学发现。"
示例标题:"波兰语示例"
- 文本:"关键词:经济学家分析指出,尽管节日总体支出增加,但根据微观经济理论,圣诞礼物交换会导致无谓损失。该损失计算为礼物实际支出与受赠者心理价位之差,2001年仅美国就造成40亿美元损失。这一现象常被用于讨论现行微观经济理论的潜在缺陷,其他无谓损失还包括节日环境负担及礼品沦为'白象'带来的维护成本。"
示例标题:"西班牙语示例"
评估指标:

基于T5的短文本关键词提取
我们的vlT5模型是基于谷歌Transformer架构(https://huggingface.co/t5-base)的编码器-解码器关键词生成模型。该模型在科学论文语料库上训练,通过论文摘要与标题的组合预测关键词集合,仅凭摘要即可生成描述文章内容的精确(但不一定完整)的关键短语。
vlT5-base-keywords生成的关键词:编码器-解码器架构,关键词生成
演示模型结果(不同生成方法,各语言独立模型):
我们的vlT5模型是基于谷歌Transformer架构的编码器-解码器关键词生成模型。该模型在科学论文语料库上训练,通过论文摘要与标题的组合预测关键词集合。
vlT5-base-keywords生成的关键词:编码器-解码器架构,vlT5模型,关键词生成,科学论文语料库
vlT5特性
最大优势在于模型的可迁移性,能适应不同领域和文本类型。局限性在于文本长度和关键词数量需接近训练数据:摘要长度的文本通常生成3-5个关键词,兼具抽取式和生成式能力。较长文本需分块处理。
概览
语料库
模型训练使用POSMAC语料库(波兰开放科学元数据语料库),包含CURLICAT项目中216,214篇科学论文摘要。
学科领域 |
文献量 |
含关键词文献 |
工程与技术科学 |
58,974 |
57,165 |
社会科学 |
58,166 |
41,799 |
农业科学 |
29,811 |
15,492 |
人文科学 |
22,755 |
11,497 |
基础自然科学 |
13,579 |
9,185 |
人文与社会科学交叉 |
12,809 |
7,063 |
医学与健康科学 |
6,030 |
3,913 |
医学健康与社会科学交叉 |
828 |
571 |
人文/医学健康/社会科学交叉 |
601 |
455 |
工程技术与人文学科交叉 |
312 |
312 |
分词器
沿用原版plT5实现,采用50k词表的sentencepiece一元模型进行子词切分。
使用示例
from transformers import T5Tokenizer, T5ForConditionalGeneration
model = T5ForConditionalGeneration.from_pretrained("Voicelab/vlt5-base-keywords")
tokenizer = T5Tokenizer.from_pretrained("Voicelab/vlt5-base-keywords")
task_prefix = "关键词: "
inputs = [
"BBC记者在乌克兰西部Vorokhta采访Christina Katrakis获悉,有家庭反映从切尔诺贝利附近村庄撤离时遭俄军射击,其车辆贴有白旗和'车内有儿童'的标识。",
"通过gamma参数每经过step_size个epoch对学习率进行衰减。需注意该衰减可能与此调度器外部的其他学习率调整同时发生。",
"您好,我想点一份萨拉米披萨。"
]
for sample in inputs:
input_sequences = [task_prefix + sample]
input_ids = tokenizer(
input_sequences, return_tensors="pt", truncation=True
).input_ids
output = model.generate(input_ids, no_repeat_ngram_size=3, num_beams=4)
predicted = tokenizer.decode(output[0], skip_special_tokens=True)
print(sample, "\n --->", predicted)
推理配置
实验表明最佳生成参数为no_repeat_ngram_size=3, num_beams=4
性能对比
方法 |
排名 |
微观指标 |
|
|
宏观指标 |
|
|
|
|
精确率 |
召回率 |
F1值 |
精确率 |
召回率 |
F1值 |
extremeText |
1 |
0.175 |
0.038 |
0.063 |
0.007 |
0.004 |
0.005 |
vlT5kw |
1 |
0.345 |
0.076 |
0.124 |
0.054 |
0.047 |
0.050 |
|
5 |
0.318 |
0.237 |
0.271 |
0.143 |
0.140 |
0.141 |
(表格其他部分省略)
许可协议
知识共享署名4.0国际许可
引用文献
若使用本模型,请引用:
Pęzik, P.等 (2023). 《基于文本生成语言模型的可迁移关键词提取技术》. 见:ICCS 2023会议论文集. Springer.
或
Piotr Pęzik等, 《基于文本生成转换器的短文本关键词提取》, ACIIDS 2022
开发团队
本模型由Voicelab.ai自然语言处理团队开发
联系我们:https://voicelab.ai/contact/