库名称:transformers
基础模型:
- meta-llama/Llama-3.1-8B-Instruct
任务标签:文本摘要
SummLlama3.1-8B
您是否在寻找一款能够跨多个领域生成更符合人类偏好的摘要工具?
我们的SummLlama3.1-8B或许正是您所需!
SummLlama3.1-8B基于Llama3.1-8B-Instruct初始化,并通过基于大规模(超过10万条)摘要反馈的直接偏好优化(DPO)进行了额外训练。
这些反馈涵盖了广泛的输入文档,从短文到长篇文本,包括对话和非对话形式,并跨越七个不同的领域:
- 四个非对话领域:新闻、生活方式、报告、医疗
- 三个对话领域:日常生活、访谈、会议
以下是自动化评估结果:
配置 |
忠实性 |
完整性 |
简洁性 |
平均分 |
Llama3-8B-Instruct |
0.864 |
0.583 |
0.450 |
0.632 |
Llama3-70B-Instruct |
0.931 |
0.596 |
0.487 |
0.671 |
Llama3.1-8B-Instruct |
0.875 |
0.596 |
0.395 |
0.622 |
GPT-4o |
0.940 |
0.657 |
0.437 |
0.678 |
SummLlama3-8B |
0.931 |
0.614 |
0.659 |
0.735 |
SummLlama3-70B |
0.950 |
0.632 |
0.754 |
0.779 |
SummLlama3.1-8B |
0.924 |
0.635 |
0.661 |
0.740 |
请参阅我们的论文了解如何在文本摘要中利用LLM生成的反馈。
SummLlama3-70B,
https://huggingface.co/DISLab/SummLlama3-8B
https://huggingface.co/DISLab/SummLlama3-70B
SummLlama3.1系列
https://huggingface.co/DISLab/SummLlama3.1-8B
https://huggingface.co/DISLab/SummLlama3.1-70B
SummLlama3.2系列
https://huggingface.co/DISLab/SummLlama3.2-3B
推荐的文本摘要提示:
我们建议使用以下提示来获取摘要,因为我们在训练模型时使用了这一格式。
def format_chat_template(document):
instruction = "请总结输入文档。"
row_json = [{"role": "user", "content": f"以下是一个描述任务的指令。请撰写一个适当的响应来完成请求。\n\n### 指令:\n{instruction}\n\n### 输入:\n{document}\n\n### 响应:\n"}]
return tokenizer.apply_chat_template(row_json, tokenize=False)
以下是我们的摘要工具的简要概述:
我们并非依赖昂贵的人工反馈,而是利用大型语言模型(LLM)生成的高质量、多维度和细粒度的反馈。
该模型在忠实性、完整性和简洁性方面表现出色,这三个方面是人类判断优质摘要工具的关键标准。
- 忠实性:摘要工具不会篡改输入文本中的信息,也不会添加任何无法直接从输入文本推断出的信息。
- 完整性:摘要工具确保输出摘要中包含输入文本的所有关键信息。
- 简洁性:摘要工具避免在输出中包含超出关键信息的内容,保持摘要的简洁和聚焦。
基于我们全面的评估(包括对摘要质量的人工和自动化评估),SummLlama3相较于原始Llama3系列展现出显著改进。
以下是评估结果:
人工评估
配置 |
忠实性 |
完整性 |
简洁性 |
平均分 |
Llama3-8B-Instruct |
0.902 |
0.636 |
0.784 |
0.774 |
Llama3-70B-Instruct |
0.953 |
0.659 |
0.792 |
0.801 |
SummLlama3-8B |
0.980 |
0.697 |
0.959 |
0.879 |
配置 |
忠实性 |
完整性 |
简洁性 |
平均分 |
Llama3-8B-Instruct |
0.864 |
0.583 |
0.450 |
0.632 |
Llama3-70B-Instruct |
0.931 |
0.596 |
0.487 |
0.671 |
SummLlama3-8B |
0.931 |
0.614 |
0.659 |
0.735 |
SummLlama3-70B |
0.950 |
0.632 |
0.754 |
0.779 |
示例
以下示例展示了SummLlama3-8B在文档摘要方面相较于Llama3-8/70B-Instruct的改进:
发言人 |
对话内容 |
人物1 |
嘿,保罗,周四你还在我家吃感恩节晚餐吧? |
人物2 |
是的,再次感谢邀请。我本来担心要一个人过节,因为我父母突然宣布要去芬兰。 |
人物1 |
我觉得你不跟他们去挺奇怪的。是因为北欧的寒冷天气吗? |
人物2 |
不完全是。下周我有很多工作要处理。 |
人物1 |
好吧,我很高兴你不会在节日里孤单一人。你能和我们一起庆祝真是太好了,人多热闹嘛! |
人物2 |
对了,会有多少人参加? |
人物1 |
让我想想,我父母、爷爷、姐姐、姐夫、侄女和两个表亲,加上我们俩。总共十个人。 |
人物2 |
我需要带点什么吗? |
人物1 |
不用,我们都准备好了。 |
人物2 |
别这样,空手去多不好意思。你们这么慷慨地邀请我。我知道了!我带个派吧,我会做个超棒的南瓜派。 |
人物1 |
听起来不错,不过我姐姐已经主动负责甜点了。别担心,食物会非常丰盛,有火鸡、填料、青豆、红薯。 |
人物2 |
哇,光是想想我就饿了。要不这样,我带瓶好酒吧,酒总不嫌多。 |
人物1 |
哈,这话太对了!就这么定了。 |
模型 |
摘要 |
Llama3-8B-Instruct |
人物1邀请人物2到家里参加感恩节晚餐。人物2接受了邀请,解释说自己原本担心要独自过节,因为父母去了芬兰。人物1表示欢迎,并说人多热闹。人物2询问参加人数,得知包括家人和表亲共10人。人物2提出带礼物,但人物1婉拒说已准备齐全。人物2坚持要带红酒或派,但人物1表示姐姐已负责甜点。 |
Llama3-70B-Instruct |
人物1邀请人物2周四到家里共度感恩节。人物2感激邀请,解释因工作无法随父母去芬兰。人物1很高兴人物2能与家人(共10人)一起庆祝。人物2提出带东西时,人物1最初拒绝,最终同意带红酒。 |
SummLlama3-8B |
对话围绕感恩节晚餐安排展开:人物2(保罗)确认周四出席人物1(主人)家的聚餐,讨论带什么礼物以及已有安排,最终确定带红酒而非派,因为甜点已有人负责。 |
SummLlama3-8B的摘要可视为更符合人类偏好的原因如下:
核心聚焦: 摘要准确捕捉了对话主题——感恩节晚餐安排,突出两人确认计划、讨论带礼物及最终决定带红酒而非派的完整过程,保持了核心上下文。
关键事实覆盖: 摘要涵盖了人物2最初提议带甜点(南瓜派)后因他人负责甜点改为带红酒的重要细节。其他摘要可能简化这一过程,而SummLlama3-8B完整呈现了关键互动。
清晰简洁: 摘要结构简明直接,有效概括对话而无冗余信息,清晰呈现讨论流程和结果。事件逻辑顺序完整,确保叙事流畅。
角色定位准确: 摘要明确区分主人(人物1)与客人保罗(人物2)的角色,比其它摘要更清晰地呈现人物关系。