基础模型:
- meta-llama/Meta-Llama-3-70B-Instruct
任务标签: 文本摘要
SummLlama3-70B
您是否在寻找一款能够跨多个领域生成更符合人类偏好的摘要工具?
我们的SummLlama3-70B或许正是您所需!
SummLlama3-70B基于Llama3-70B-Instruct初始化,并通过基于大规模(超过10万条)摘要反馈的直接偏好优化(DPO)进行了额外训练。
这些反馈涵盖了从短文本到长文本的广泛输入文档,包括对话和非对话形式,并跨越七个不同领域:
- 四个非对话领域:新闻、生活方式、报告、医疗
- 三个对话领域:日常生活、访谈、会议
以下是自动化评估结果:
配置 |
忠实性 |
完整性 |
简洁性 |
平均分 |
Llama3-8B-Instruct |
0.864 |
0.583 |
0.450 |
0.632 |
Llama3-70B-Instruct |
0.931 |
0.596 |
0.487 |
0.671 |
GPT-4o |
0.940 |
0.657 |
0.437 |
0.678 |
SummLlama3-70B |
0.950 |
0.632 |
0.754 |
0.779 |
请参阅我们的论文了解如何在文本摘要中利用LLM生成的反馈。
SummLlama3-70B,
https://huggingface.co/DISLab/SummLlama3-8B
https://huggingface.co/DISLab/SummLlama3-70B
SummLlama3.1系列
https://huggingface.co/DISLab/SummLlama3.1-8B
https://huggingface.co/DISLab/SummLlama3.1-70B
SummLlama3.2系列
https://huggingface.co/DISLab/SummLlama3.2-3B
推荐的文本摘要提示:
我们建议使用以下提示来获取摘要,因为我们在训练模型时使用了这个格式。
def format_chat_template(document):
instruction = "请总结输入的文档。"
row_json = [{"role": "user", "content": f"以下是一个描述任务的指令。请写出一个适当完成请求的响应。\n\n### 指令:\n{instruction}\n\n### 输入:\n{document}\n\n### 响应:\n"}]
return tokenizer.apply_chat_template(row_json, tokenize=False)
以下是我们的摘要工具的简要概述:
我们没有依赖昂贵的人工反馈,而是利用了由大型语言模型(LLMs)生成的高质量、多维度、细粒度的反馈。
该模型在忠实性、完整性和简洁性方面表现出色,这三个方面是人类判断优秀摘要工具的关键标准。
- 忠实性:摘要工具不会篡改输入文本中的信息,也不会添加任何无法直接从输入文本中推断出的信息。
- 完整性:摘要工具确保输出摘要中包含输入文本的所有关键信息。
- 简洁性:摘要工具避免在输出中包含非关键信息,保持摘要的简洁和聚焦。
基于我们全面的评估,包括对摘要质量的人工和自动化评估,SummLlama3相比原始Llama3系列展现了显著的改进。
以下是结果:
人工评估
配置 |
忠实性 |
完整性 |
简洁性 |
平均分 |
Llama3-8B-Instruct |
0.902 |
0.636 |
0.784 |
0.774 |
Llama3-70B-Instruct |
0.953 |
0.659 |
0.792 |
0.801 |
SummLlama3-8B |
0.980 |
0.697 |
0.959 |
0.879 |
配置 |
忠实性 |
完整性 |
简洁性 |
平均分 |
Llama3-8B-Instruct |
0.864 |
0.583 |
0.450 |
0.632 |
Llama3-70B-Instruct |
0.931 |
0.596 |
0.487 |
0.671 |
SummLlama3-8B |
0.931 |
0.614 |
0.659 |
0.735 |
SummLlama3-70B |
0.950 |
0.632 |
0.754 |
0.779 |
示例
以下是一个示例,展示了SummLlama3-8B在以下文档上的摘要相比Llama3-8/70B-Instruct的改进:
说话者 |
对话内容 |
人物1 |
嘿,保罗,你周四还是在我家吃感恩节晚餐,对吧? |
人物2 |
是的,再次感谢邀请。我本来还担心得一个人过节,因为我父母说他们要去芬兰。 |
人物1 |
我觉得你不跟他们一起去挺奇怪的。是因为北欧的寒冷天气吗? |
人物2 |
不完全是。我下周有很多工作要做。 |
人物1 |
嗯,我很高兴你不会在节日里一个人。和我们一起庆祝会很棒。人越多越热闹! |
人物2 |
没错,会有多少人参加? |
人物1 |
让我想想,我父母、我爷爷、我姐姐、我姐夫、我侄女和我的两个表亲,加上我们俩。所以总共十个人。 |
人物2 |
我需要带点什么吗? |
人物1 |
不用,我们都准备好了。 |
人物2 |
别这样,我不想空手而来。你们这么慷慨地邀请我。我知道了!我带个派吧。我会做一个很棒的南瓜派。 |
人物1 |
听起来不错,但我姐姐已经主动负责甜点了。别担心,会有很多食物的。火鸡、填料、青豆、红薯。 |
人物2 |
哇,光是想想我就饿了。这样吧,我带瓶好酒。酒永远不会嫌多。 |
人物1 |
嗯,这不是真理吗?听起来不错。 |
模型 |
摘要 |
Llama3-8B-Instruct |
人物1邀请人物2参加他们家的感恩节晚餐。人物2接受了邀请,提到他们原本担心要一个人过节,因为父母要去芬兰。人物1安慰人物2说他们很受欢迎,人越多越热闹。人物2询问会有多少人参加,被告知会有10人,包括家人和表亲。人物2提出带礼物,但人物1婉拒,表示一切都准备好了。人物2坚持要带酒或派,但人物1说姐姐已经负责甜点了。 |
Llama3-70B-Instruct |
人物1邀请人物2周四到他们家吃感恩节晚餐。人物2感谢邀请,并解释因为工作原因不能和父母一起去芬兰。人物1很高兴能和家人一起庆祝,共有10人参加。当人物2提出带东西时,人物1婉拒,但最终同意让他们带一瓶酒。 |
SummLlama3-8B |
对话围绕感恩节晚餐的安排展开,人物2(保罗)确认周四会参加人物1(主人)家的晚餐,讨论了带什么以及已经安排好的事项,并最终决定带酒而不是派,因为甜点已有人负责。 |
SummLlama3-8B的摘要可以被认为是一个更符合人类偏好的摘要,原因如下:
核心焦点: 摘要准确捕捉了对话的主题,即感恩节晚餐的安排。它突出了两人如何确认计划、讨论带什么以及最终决定人物2带酒而不是派的过程。这保持了核心背景。
关键事实的包含: 摘要涵盖了对话的重要细节,包括人物2最初提出带甜点(南瓜派)以及因其他家庭成员负责甜点而改为带酒的过程。其他摘要往往忽略或简化了这一进展,而SummLlama3-8B完整捕捉了互动的关键事件。
清晰与简洁: 摘要结构直接、简洁,有效地总结了对话,没有不必要的细节。它清晰地呈现了讨论的流程和结果,便于读者理解。事件的逻辑顺序得以保持,确保了流畅的叙述。
角色描述的准确性: 摘要明确将人物1标识为主人,保罗(人物2)为客人,这有助于澄清他们的关系和对话的性质。相比其他摘要可能使这些角色更模糊,SummLlama3-8B的描述更为明确。