语言:
- 中文
标签:
- 关键词提取
- 文本摘要
- flan-t5
许可证: mit
数据集:
- agentlans/wikipedia-paragraph-keywords
基础模型: google/flan-t5-small
库名称: transformers
关键词提取模型
该模型是基于Flan-T5小型版微调而成的专用版本,专门用于从段落中提取关键词。它利用T5架构的强大能力来识别并输出能概括文本核心内容的关键短语。
模型描述
该模型接收段落作为输入,并生成一系列关键词或关键短语来概括文本的主要主题。其特别适用于:
- 长文本摘要
- 为文章或博客生成标签
- 识别文档中的核心主题
预期用途与限制
预期用途:
- 快速摘要长段落
- 为内容管理系统生成元数据
- 辅助SEO关键词识别
限制:
- 模型有时可能生成无关关键词
- 性能会随输入文本长度和复杂度而变化
- 为获得最佳效果,请使用较长且清晰的文本
- 由于Flan-T5架构限制,最大长度为512个标记
- 模型基于英文文本训练,对其他语言可能效果不佳
训练与评估
该模型基于英文维基百科段落及其对应关键词的数据集进行微调,涵盖多样主题以确保广泛适用性。
使用方法
以下是使用该模型的简单示例:
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_name = "agentlans/flan-t5-small-keywords"
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
input_text = "在此输入您的段落..."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=512)
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
keywords = list(set(decoded_output.split('||')))
print(keywords)
示例输入段落:
在繁华都市的中心,隐藏着一处等待被发现的珍宝:一家仿佛逃离了时间洪流的古雅小书店。当你踏入店内,陈年纸张与浓郁咖啡的香气将你包围,营造出一种诱人的氛围,吸引你去探索它的书架。每个角落都精心布置着从经典文学到当代畅销书的精选集,邀请各种口味的读者沉浸于好书的篇章中。温暖的灯光投射出舒适的氛围,而书友们轻柔的交谈声更添魅力。这家书店不仅是购买书籍的地方,更是为那些在快节奏外部世界中寻求慰藉、灵感和归属感的人们提供的避风港。
示例输出关键词:
['陈年纸张咖啡香', '交谈声的舒适氛围', '古雅书店', '快节奏世界中的归属感', '慰藉与灵感', '精选藏书']
限制与偏差
该模型基于英文维基百科段落训练,可能存在固有偏差。用户应注意生成的关键词可能反映这些偏差,应审慎使用输出结果。
训练详情
- 训练数据: 维基百科段落与关键词数据集
- 训练流程: google/flan-t5-small的微调
训练超参数
训练过程中使用以下超参数:
- 学习率: 5e-05
- 训练批次大小: 8
- 评估批次大小: 8
- 随机种子: 42
- 优化器: 带betas=(0.9,0.999)和epsilon=1e-08的Adam
- 学习率调度器类型: linear
- 训练轮数: 10.0
框架版本
- Transformers 4.45.1
- Pytorch 2.4.1+cu121
- Datasets 3.0.1
- Tokenizers 0.20.0
伦理考量
使用本模型时,请考虑自动关键词提取对内容创作和SEO实践的潜在影响。确保模型使用符合相关准则,不会助长误导性或垃圾内容的产生。