许可证:llama3.1
数据集:
- georgeck/hacker-news-discussion-summarization-large
语言:
- 英语
基础模型:
- meta-llama/Llama-3.1-8B-Instruct
标签:
- 摘要生成
- 黑客新闻
- hn-companion
库名称:transformers
流水线标签:文本生成
模型卡片:Hacker-News-Comments-Summarization-Llama-3.1-8B-Instruct
该模型专门用于生成简洁、信息丰富的黑客新闻讨论主题摘要。
它分析层次化的评论结构,提取关键主题、见解和观点,同时根据社区参与度优先考虑高质量内容。
模型详情
模型描述
Hacker-News-Comments-Summarization-Llama-3.1-8B-Instruct
是Llama-3.1-8B-Instruct
的微调版本,针对黑客新闻的结构化讨论摘要进行了优化。
它处理层次化的评论主题,识别主要主题、重要观点和高质量贡献,并将其组织成结构化的摘要格式,突出社区共识和显著观点。
- 开发者: George Chiramattel & Ann Catherine Jose
- 模型类型: 微调的大语言模型(Llama-3.1-8B-Instruct)
- 语言: 英语
- 许可证: llama3.1
- 微调基础模型: Llama-3.1-8B-Instruct
模型来源
- 仓库: https://huggingface.co/georgeck/Hacker-News-Comments-Summarization-Llama-3.1-8B-Instruct
- 数据集仓库: https://huggingface.co/datasets/georgeck/hacker-news-discussion-summarization-large
用途
直接使用
该模型设计用于生成黑客新闻讨论主题的结构化摘要。给定一个带有层次化评论的主题,它会生成一个组织良好的摘要,包括:
- 讨论概述
- 主要主题和关键见解
- 详细主题分解与显著引用
- 关键观点(包括对立观点)
- 显著的次要讨论
该模型特别适用于:
- 帮助用户快速理解长篇讨论主题的关键点
- 识别技术主题的社区共识
- 挖掘专家解释和有价值的见解
- 突出主题的多样化观点
下游使用
该模型为Hacker News Companion项目创建。
偏见、风险和限制
- 社区偏见: 模型可能继承黑客新闻社区中存在的偏见,该社区倾向于某些技术人群和观点。
- 内容优先级: 评分系统优先考虑高参与度的评论,这可能并不总是与事实准确性或多样化代表性相关。
- 技术限制: 对于极长的主题或结构异常的讨论,模型性能可能会下降。
- 上下文有限: 模型专注于讨论本身,可能缺乏对所讨论主题的更广泛背景。
- 归属挑战: 模型尝试正确归属引用,但偶尔可能会错误归属或格式不当。
- 内容过滤: 虽然模型尝试过滤低质量或大量反对票的内容,但可能无法捕获所有问题内容。
建议
- 用户应意识到摘要反映了黑客新闻社区的参与模式,可能包含固有偏见。
- 对于关键决策,用户应从原始主题中验证重要信息。
- 当摘要突出显示冲突观点时,应审查原始讨论以确保公平表达。
- 在重新利用摘要时,应保持对模型和原始评论者的适当归属。
如何开始使用模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "georgeck/Hacker-News-Comments-Summarization-Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
post_title = "您的黑客新闻帖子标题"
comments = """
[1] (分数: 800) <回复: 2> {反对票: 0} user1: 这是一条顶级评论
[1.1] (分数: 600) <回复: 1> {反对票: 0} user2: 这是对第一条评论的回复
[1.1.1] (分数: 400) <回复: 0> {反对票: 0} user3: 这是对回复的回复
[2] (分数: 700) <回复: 0> {反对票: 0} user4: 这是另一条顶级评论
"""
prompt = f"""您是HackerNewsCompanion,一个专门总结黑客新闻讨论的AI助手。
您的任务是提供简洁、有意义的摘要,捕捉讨论的精髓,同时优先考虑高质量内容。
专注于高分数和高回复的评论,同时降低反对票评论的优先级(排除反对票超过4条的评论),
以识别主要主题和关键见解。
以Markdown格式总结,包括以下部分:概述、主要主题与关键见解、[主题标题]、重要观点、显著的次要讨论。
在“主要主题”中,使用项目符号。引用评论时,包含层次路径并归属作者,例如'[1.2] (user1)'`;
根据您收到的指导方针,提供以下黑客新闻讨论的简洁且有洞察力的摘要。
目标是帮助某人快速掌握主要讨论点和关键观点,而无需阅读所有评论。
请专注于提取主要主题、重要观点和高质量贡献。
帖子标题和评论由三个虚线分隔:
---
帖子标题:
{post_title}
---
评论:
{comments}
---
"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(inputs.input_ids, max_length=1024)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)
训练详情
训练数据
该模型在georgeck/hacker-news-discussion-summarization-large数据集上进行了微调,该数据集包含14,531条黑客新闻首页故事及其相关讨论主题的记录。
数据集包括:
- 6,300个训练示例
- 700个测试示例
- 层次化评论主题的结构化表示
- 表示评论重要性的标准化评分系统
- 关于帖子和评论的全面元数据
每个示例包括一个帖子标题,以及带有评论分数、回复数量和反对票信息的结构化评论主题表示。
训练过程
预处理
- 使用标准化格式保留层次化评论结构
- 应用标准化评分系统(1-1000)表示每个评论的相对重要性
- 组织评论以保持其层次关系
训练使用OpenPipe基础设施完成。
评估
测试数据、因素和指标
测试数据
模型在georgeck/hacker-news-discussion-summarization-large数据集的测试集上进行了评估。
因素
评估考虑:
- 不同长度和复杂度的讨论
- 具有不同评论层次数量的主题
- 黑客新闻常见技术领域的讨论
- 具有不同争议程度的主题(通过评论反对票衡量)
技术规格
模型架构和目标
该模型基于因果语言模型Llama-3.1-8B-Instruct。
主要训练目标是生成层次化讨论主题的结构化摘要,捕捉最重要的主题、观点和见解,同时保持适当的归属。
模型经过训练,专门理解和处理黑客新闻评论的层次结构,包括其评分系统、回复数量和反对票信息,以适当加权内容重要性。
引用
BibTeX:
@misc{georgeck2025HackerNewsSummarization,
author = {George Chiramattel, Ann Catherine Jose},
title = {Hacker-News-Comments-Summarization-Llama-3.1-8B-Instruct},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Hub},
howpublished = {https://huggingface.co/georgeck/Hacker-News-Comments-Summarization-Llama-3.1-8B-Instruct},
}
术语表
- 层次路径: 表示评论在讨论树中位置的符号(如[1.2.1])。单个数字表示顶级评论,而附加数字表示回复链中的更深层次。
- 分数: 基于社区参与度的标准化值(1-1000),表示评论的相对重要性。
- 反对票: 评论收到的负面投票数,用于过滤低质量内容。
- 主题: 从单个顶级评论延伸出的回复链。
- 主题: 在多个评论中识别的重复话题或观点。
模型卡片作者
[George Chiramattel, Ann Catherine Jose]