DialogRPT-human-vs-rand开源对话回应排名模型 - 精准预测回应与上下文相关性

首页

Dialogrpt Human Vs Rand

由 microsoft 开发

DialogRPT是一个基于人类反馈数据训练的对话回应排名模型，用于预测回应与上下文的相关性。

对话系统

Transformers

#对话回应评分 #人类反馈预测 #上下文相关性评估

下载量 1,021

发布时间 : 3/2/2022

模型简介

该模型是DialogRPT系列的一部分，专门用于区分给定上下文中的人类回应与随机回应，预测回应与上下文对应的可能性。

模型特点

人类反馈数据训练

基于1亿多条人类反馈数据进行训练，能够准确预测回应的相关性。

多任务支持

支持多种对话排名任务，包括人类反馈和人类相似度任务。

改进对话生成

可用于改进现有对话生成模型，通过重新排序生成的回应候选。

模型能力

对话回应排名

区分人类与随机回应

预测回应相关性

使用案例

对话系统

改进对话生成模型

通过重新排序生成的回应候选，提高对话系统的回应质量。

提高回应的相关性和人类偏好评分

对话回应筛选

从多个候选回应中选择最相关和最有意义的回应。

提升用户体验和对话流畅度

🚀 演示项目

本项目提供了一个基于对话排名预训练变换器（DialogRPT）的演示，用于预测对话回复的相关性和质量。通过使用大规模的人类反馈数据进行训练，该模型可以帮助提升现有对话生成模型的性能。

请尝试这个 📔 Colab Notebook 演示（点击此处！）

上下文	回复	`human_vs_rand` 得分
我喜欢自然语言处理！	他是一位伟大的篮球运动员。	0.027
我喜欢自然语言处理！	你能告诉我它是如何工作的吗？	0.754
我喜欢自然语言处理！	我也是！	0.631

human_vs_rand 得分用于预测回复与给定上下文的匹配程度，而非随机回复的可能性。

📚 DialogRPT-human-vs-rand

对话排名预训练变换器

一个对话回复获得点赞和/或得到回复的可能性有多大？

这正是 DialogRPT 模型旨在预测的内容。它是由微软研究院自然语言处理小组提出的一组对话回复排名模型，基于超过一亿条人类反馈数据进行训练。该模型可用于通过对生成的回复候选进行重新排序，来改进现有的对话生成模型（例如 DialoGPT）。

快速链接：

我们考虑了以下任务并提供了相应的预训练模型：

任务	描述	预训练模型
人类反馈	给定一个上下文及其两个人类回复，预测...
`updown`	... 哪个获得更多点赞？	模型卡片
`width`	... 哪个获得更多直接回复？	模型卡片
`depth`	... 哪个获得更长的后续对话线程？	模型卡片
类人回复 (人类 vs 机器)	给定一个上下文和一个人类回复，将其与...区分开来
`human_vs_rand`	... 一个随机的人类回复	本模型
`human_vs_machine`	... 一个机器生成的回复	模型卡片

📞 联系我们

请在我们的仓库上创建一个问题。

📖 引用

@inproceedings{gao2020dialogrpt,
    title={Dialogue Response RankingTraining with Large-Scale Human Feedback Data},
    author={Xiang Gao and Yizhe Zhang and Michel Galley and Chris Brockett and Bill Dolan},
    year={2020},
    booktitle={EMNLP}
}