许可证:llama3.1
数据集:
- georgeck/hacker-news-discussion-summarization-large
语言:
- 英语
基础模型:
- meta-llama/Llama-3.2-3B-Instruct
标签:
- 摘要生成
- 黑客新闻
- hn-companion
库名称:transformers
流水线标签:文本生成
Hacker-News-Comments-Summarization-Llama-3.2-3B-Instruct模型卡
该模型专长于生成简洁且信息丰富的黑客新闻讨论主题摘要。
它通过分析层级式评论结构,提取关键主题、见解和观点,同时根据社区互动情况优先呈现高质量内容。
模型详情
模型描述
Hacker-News-Comments-Summarization-Llama-3.2-3B-Instruct
是基于Llama-3.1-3B-Instruct
微调的版本,专门优化用于摘要黑客新闻的结构化讨论。
它处理层级式评论主题,识别主要主题、重要观点和高质量贡献,并将其组织成结构化摘要格式,突出社区共识和显著观点。
- 开发者: George Chiramattel & Ann Catherine Jose
- 模型类型: 微调的大型语言模型(Llama-3.2-3B-Instruct)
- 语言: 英语
- 许可证: llama3.2
- 微调基础模型: Llama-3.2-3B-Instruct
模型来源
- 代码库: https://huggingface.co/georgeck/Hacker-News-Comments-Summarization-Llama-3.2-3B-Instruct
- 数据集代码库: https://huggingface.co/datasets/georgeck/hacker-news-discussion-summarization-large
用途
直接使用
该模型设计用于生成黑客新闻讨论主题的结构化摘要。给定一个带有层级评论的主题,它会生成一个组织良好的摘要,包括:
- 讨论概述
- 主要主题和关键见解
- 详细主题分解及显著引用
- 关键观点(包括对立观点)
- 值得注意的次要讨论
该模型特别适用于:
- 帮助用户快速理解冗长讨论主题的要点
- 识别技术主题的社区共识
- 呈现专家解释和有价值的见解
- 突显话题的多样化观点
下游使用
该模型为Hacker News Companion项目创建。
偏见、风险和限制
- 社区偏见: 模型可能继承黑客新闻社区中存在的偏见,该社区倾向于某些技术人群和观点。
- 内容优先级: 评分系统优先展示高互动评论,但这些评论并不总是与事实准确性或多样化代表性相关。
- 技术限制: 对于极长主题或结构异常的讨论,模型性能可能下降。
- 有限上下文: 模型专注于讨论本身,可能缺乏对所讨论主题的更广泛背景理解。
- 归属挑战: 模型尝试正确归属引用,但偶尔可能错误归属或格式不当。
- 内容过滤: 尽管模型尝试过滤低质量或大量反对票内容,但可能无法捕捉所有问题内容。
建议
- 用户应意识到摘要反映了黑客新闻社区的互动模式,可能包含固有偏见。
- 对于关键决策,用户应验证原始主题中的重要信息。
- 当摘要突显冲突观点时,应查阅原始讨论以确保公平呈现。
- 在重新利用摘要时,应保持对模型和原始评论者的适当归属。
如何开始使用模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "georgeck/Hacker-News-Comments-Summarization-Llama-3.2-3B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
post_title = "此处填写您的黑客新闻帖子标题"
comments = """
[1] (得分: 800) <回复: 2> {反对票: 0} 用户1: 这是一个顶级评论
[1.1] (得分: 600) <回复: 1> {反对票: 0} 用户2: 这是对第一条评论的回复
[1.1.1] (得分: 400) <回复: 0> {反对票: 0} 用户3: 这是对回复的回复
[2] (得分: 700) <回复: 0> {反对票: 0} 用户4: 这是另一个顶级评论
"""
prompt = f"""您是HackerNewsCompanion,一个专门摘要黑客新闻讨论的AI助手。
您的任务是提供简洁、有意义的摘要,捕捉讨论的精髓,同时优先呈现高质量内容。
关注高得分和高回复的评论,同时忽略反对票超过4条的评论,以识别主要主题和关键见解。
以Markdown格式摘要,包含以下部分:概述、主要主题与关键见解、[主题标题]、重要观点、值得注意的次要讨论。
在“主要主题”中使用项目符号。引用评论时,包含层级路径并注明作者,例如“[1.2] (用户1)”。
根据您收到的指南,提供以下黑客新闻讨论的简洁且有洞察力的摘要。
目标是帮助某人快速掌握主要讨论点和关键观点,而无需阅读所有评论。
请专注于提取主要主题、重要观点和高质量贡献。
帖子标题和评论由三条虚线分隔:
---
帖子标题:
{post_title}
---
评论:
{comments}
---
"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(inputs.input_ids, max_length=1024)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)
训练详情
训练数据
该模型基于georgeck/hacker-news-discussion-summarization-large数据集微调,包含14,531条黑客新闻首页故事及其相关讨论主题。
数据集包括:
- 6,300个训练示例
- 700个测试示例
- 层级式评论主题的结构化表示
- 表示评论重要性的标准化评分系统
- 关于帖子和评论的全面元数据
每个示例包含帖子标题和评论主题的结构化表示,包括评论得分、回复数量和反对票信息。
训练流程
预处理
- 使用标准化格式保留层级式评论结构
- 应用标准化评分系统(1-1000)表示每条评论的相对重要性
- 组织评论以保持其层级关系
训练通过OpenPipe基础设施完成。
评估
测试数据、因素和指标
测试数据
模型在georgeck/hacker-news-discussion-summarization-large数据集的测试集上评估。
因素
评估考虑:
- 不同长度和复杂度的讨论
- 具有不同评论层级数量的主题
- 黑客新闻常见技术领域的讨论
- 具有不同争议程度(通过评论反对票衡量)的主题
技术规格
模型架构和目标
该模型基于因果语言模型Llama-3.2-3B-Instruct。
主要训练目标是生成层级式讨论主题的结构化摘要,捕捉最重要的主题、观点和见解,同时保持正确的归属。
模型经过训练,专门理解和处理黑客新闻评论的层级结构,包括其评分系统、回复数量和反对票信息,以适当加权内容重要性。
引用
BibTeX:
@misc{georgeck2025HackerNewsSummarization,
author = {George Chiramattel, Ann Catherine Jose},
title = {Hacker-News-Comments-Summarization-Llama-3.2-3B-Instruct},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Hub},
howpublished = {https://huggingface.co/georgeck/Hacker-News-Comments-Summarization-Llama-3.2-3B-Instruct},
}
术语表
- 层级路径: 表示评论在讨论树中位置的符号(例如[1.2.1])。单个数字表示顶级评论,而更多数字表示回复链中的更深层级。
- 得分: 基于社区互动的标准化值(1-1000),表示评论的相对重要性。
- 反对票: 评论收到的负面投票数,用于过滤低质量内容。
- 主题: 从单个顶级评论延伸出的回复链。
- 主题: 在多个评论中识别的重复话题或观点。
模型卡作者
[George Chiramattel, Ann Catherine Jose]