语言:
- 中文
- 英语
- 法语
- 西班牙语
- 葡萄牙语
- 德语
- 意大利语
- 俄语
- 日语
- 韩语
- 越南语
- 泰语
- 阿拉伯语
标签:
- qwen2
- 文本生成
- 摘要生成
- 关键点提取
- 博客摘要
- unsloth
数据集:
许可证: cc-by-4.0
基础模型: Qwen/Qwen2.5-7B-Instruct
Qwen2.5-7B-博客关键点提取模型
本模型基于Qwen/Qwen2.5-7B-Instruct在博客关键点数据集上微调而成,专门用于从博客文章和网页内容中提取关键要点,生成简洁的要点式摘要以捕捉核心信息。
模型描述
Qwen2.5-7B-博客关键点提取模型是一个70亿参数的微调模型,专为文章关键点提取任务设计。它能处理整篇文章并生成简明扼要的要点式摘要,突出最重要的信息。与30亿参数版本相比,该模型在理解复杂文章和生成更细致摘要方面具有更强的能力。
模型详情
用途
直接使用
本模型专为文章关键点提取设计,可直接用于:
- 博客文章摘要
- 新闻文章重要信息提取
- 长文内容的要点式摘要
- 研究论文的简明概述
- 将复杂信息提炼为易消化的要点
使用示例
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ncls-p/Qwen2.5-7B-blog-key-points"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
article = """
[在此输入您的文章内容]
"""
prompt = f"""
从以下文章中提取关键要点:
{article}
"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=1024)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
训练
本模型基于博客关键点数据集微调,该数据集包含200组文章-摘要对。每组数据包含完整文章和AI提取的要点式摘要。
训练过程
评估
模型在未见过的文章上进行关键点提取能力评估,评估指标包括:
- 相关性: 提取要点对文章主旨的捕捉程度
- 简洁性: 以清晰要点格式总结信息的能力
- 完整性: 是否涵盖所有重要信息
- 连贯性: 提取要点的逻辑组织和流畅性
局限性与偏差
- 模型可能继承训练数据中的偏差,包括源文章或关键点提取过程中的潜在偏差
- 性能可能因输入文章的长度、复杂度和领域而异
- 模型主要基于英语内容训练,对其他语言内容表现可能不佳
- 与任何摘要模型一样,存在遗漏重要信息或曲解原文的风险
- 虽然70亿参数版本比30亿版本能力更强,但也需要更多计算资源运行
引用方式
如果您在研究中使用了本模型,请引用:
@misc{qwen25-7b-blog-key-points,
author = {ncls-p},
title = {Qwen2.5-7B-blog-key-points},
year = {2024},
publisher = {Hugging Face},
journal = {Hugging Face模型库},
howpublished = {\url{https://huggingface.co/ncls-p/Qwen2.5-7B-blog-key-points}},
}
数据集创建
本模型训练使用的数据集由llm-to-blog-key-points-dataset工具创建,该CLI工具通过AI从网页文章中提取关键点,并以结构化格式添加到数据集中。