许可协议: MIT
数据集:
- Samsung/samsum
语言:
- 英语
任务标签: 文本摘要
英语对话摘要模型
预训练基础模型: BART-large-cnn
实现与微调脚本详见:
https://github.com/joceyngan/conversation_summarization
评估结果:
参考摘要是数据集中的真实摘要,生成摘要由本模型产生。
样例1:
原文:
A: 嗨Tom,明天下午忙吗?
B: 应该挺忙的,怎么了?
A: 能陪我去趟动物收容所吗?
B: 你想做什么?
A: 想给儿子领养只小狗。
B: 他肯定会很开心。
A: 是啊,我们讨论过很多次了,我觉得他现在准备好了。
B: 挺好的,养狗就像养小孩一样不容易 ;-)
A: 我打算给他选只小型犬。
B: 那种长不大的类型;-)
A: 还不会吃太多;-))
B: 你知道他喜欢哪种吗?
A: 当然,上周一带他去过,他指了只特别喜欢的。
B: 我猜你当时得硬拽他走吧。
A: 他当场就想带回家呢;-)。
B: 好奇他会取什么名字。
A: 他说要用去世仓鼠的名字——莱米,这孩子是摩托头乐队的铁粉:-)))
参考摘要:
A明天要去动物收容所为儿子领养小狗。他们上周一已去过收容所,儿子选好了小狗。
生成摘要:
A想给儿子领养小狗。B明天会陪他去收容所。A准备选小型犬。上周一带儿子去过,他非常喜欢。A打算给狗取名莱米。
样例2:
原文:
艾玛:我迷上这种圣诞日历了!太棒了!想给孩子买一个!
罗布:我小时候每年都收到!超爱的!
艾玛:记得里面都是巧克力!
劳伦:现在不一样啦!精致多了!哈哈!
罗布:有布料/木质的,商店买的/手工的,里面装各种小东西
艾玛:一般放什么呢?
劳伦:小玩具、圣诞装饰、手工材料、发饰、贴纸、文具、拼图、糖果
艾玛:哇!太棒了!X
劳伦:我还会放特别纸条——让孩子为他人做件好事
罗布:这创意好!我妹妹放的是圣诞知识问答
劳伦:我觉得能让孩子更期待圣诞节
艾玛:还能传承传统,培养善心
劳伦:我家孩子每次收到都超兴奋!
艾玛:完全理解!:)
参考摘要:
艾玛和罗布喜欢圣诞日历。劳伦会在日历里放各种物品,比如小玩具和圣诞装饰。她的孩子们收到日历时总是很兴奋。
生成摘要:
艾玛喜爱圣诞日历。罗布童年时每年都收到。艾玛想给孩子购买。罗布的妹妹会准备圣诞问答。劳伦的孩子们每次收到都兴奋不已。
样例3:
原文:
杰姬:麦迪逊怀孕了
杰姬:但她不想谈这事
伊基:为什么
杰姬:不清楚,她就是不愿讨论
伊基:好吧
杰姬:提前告诉你是因为大家会追问不停
杰姬:她看起来焦虑多过开心
伊基:可能在担心吧
伊基:她对所有责任都很认真
杰姬:可能是经济或感情问题
伊基:或许她想流产
杰姬:也可能都有
伊基:知道吗?
伊基:我朋友怀孕时,我就是高兴不起来
杰姬:为什么?
伊基:觉得他们不成熟,无法想象他们当父母
杰姬:帕特里夏婚礼时我也有同感
伊基:帕特里夏·史蒂文斯?
杰姬:对
伊基:看来我们在说同一个人
杰姬:真巧
杰姬:所以她怀孕了?
伊基:她以为自己怀了
杰姬:天啊...
参考摘要:
麦迪逊怀孕但不愿谈论。帕特里夏·史蒂文斯结婚了,她曾以为自己怀孕。
生成摘要:
麦迪逊怀孕了。她拒绝讨论此事。伊基的朋友帕特里夏·史蒂文斯曾怀孕,伊基对此并不看好。她觉得那对伴侣不够成熟,不适合为人父母。
样例4:
原文:
玛拉:<文件_照片>
玛拉:看我床底下发现了什么
琪琪:笑死
塔玛拉:谁的內裤?
玛拉:肯定不是我的,我屁股大但没这么夸张
琪琪:像是男式內裤
塔玛拉:也可能是女同在你房间嗨过头了
玛拉:约完炮留下內裤?这些人有病吧
琪琪:可能是嗨晕了没注意
塔玛拉:或者是故意恶心你
玛拉:太幼稚了
琪琪:这么幼稚肯定是你妹妹干的
玛拉:她才13岁,內裤全是粉色的
塔玛拉:前男友的?
琪琪:她会认出来的
玛拉:我们居然在破案分析一条內裤XD
琪琪:<文件_gif>
塔玛拉:笑死
塔玛拉:肯定是你妹妹打赌让人放的
玛拉:有道理
琪琪:塔玛拉你破案了!
塔玛拉:<文件_gif>
塔玛拉:乐意为助
参考摘要:
玛拉在床下发现一条男式內裤。
生成摘要:
玛拉在床下发现一条內裤。琪琪、塔玛拉和玛拉嘲笑有人约炮后落下內裤。玛拉认为这是她妹妹打赌让人放的恶作剧。
样例5:
原文:
罗伯特:把之前说的乐器店地址发我
罗伯特:要买吉他线
弗雷德:<文件_其它>
弗雷德:谷歌地图自己查
罗伯特:谢了兄弟
弗雷德:不客气
参考摘要:
罗伯特让弗雷德发送乐器店地址,他需要购买吉他线。
生成摘要:
弗雷德提供乐器店地址给需要购买吉他线的罗伯特。地址可通过谷歌地图查找。罗伯特必须去该店购买吉他线。弗雷德发送了地址链接。
微调参数:
{
输出目录=str(结果路径),
评估策略="每轮",
保存策略="每轮",
日志间隔=10,
学习率=2e-5,
单设备训练批大小=2,
单设备评估批大小=2,
训练轮数=3,
权重衰减=0.01,
报告至="tensorboard",
最大保存数=3,
结束时加载最佳模型=True,
最佳模型指标="评估损失",
指标越大越好=False,
日志目录=str(结果路径),
}
使用方式:
分词器 = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
模型 = BartForConditionalGeneration.from_pretrained('jngan/bart-large-cnn-samsum')