pd-robert开源复述检测模型 - 适用于内容检测、问答及语义相似度分析

首页

Pd Robert

由 viswadarshan06 开发

基于RoBERTa-base微调的复述检测模型，训练数据来自MRPC、QQP、PAWS-X和PIT四大基准数据集，适用于重复内容检测、问答系统和语义相似度分析。

文本分类

Transformers

开源协议:Apache-2.0 #语义相似度分析 #对抗性复述检测 #多数据集联合训练

下载量 357

发布时间 : 2/9/2025

模型简介

该模型是一个基于Transformer的句子对分类器，专门用于检测英语文本中的复述关系，在多样化语言结构中表现优异。

模型特点

多数据集联合训练

融合MRPC、QQP、PAWS-X和PIT四大基准数据集，覆盖新闻、问答、对抗性文本等多种场景

高鲁棒性

在PAWS-X对抗性数据集上表现优异（F1分数94.13%）

领域适应性强

支持基于领域特定数据（如医疗、法律）的进一步微调

模型能力

重复问题检测

语义相似度分析

文档去重

问答系统优化

使用案例

客户服务

FAQ重复问题识别

自动识别用户提问中的语义重复问题

减少人工审核工作量

内容审核

抄袭检测

识别改述的抄袭内容

准确率超过90%

🚀 用于释义检测的微调RoBERTa模型卡片

本模型是基于RoBERTa的微调模型，用于释义检测任务。它在多个基准数据集上进行训练，能够有效识别句子对之间的语义相似性，适用于语义搜索、重复内容检测等多种应用场景。

🚀 快速开始

要使用该模型，需安装transformers库，并按以下方式加载微调后的模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 加载分词器和模型
model_path = "viswadarshan06/pd-robert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)

# 编码句子对
inputs = tokenizer("The car is fast.", "The vehicle moves quickly.", return_tensors="pt", padding=True, truncation=True)

# 获取预测结果
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax().item()

print("Paraphrase" if predicted_class == 1 else "Not a Paraphrase")

✨ 主要特性

多数据集训练：在MRPC、QQP、PAWS - X和PIT四个基准数据集上进行训练，能适应不同的语言结构。
广泛应用：可用于重复问题识别、语义搜索、文档去重和内容审核等多种应用场景。
高性能表现：在多个评估指标上表现出色，如准确率、精确率、召回率和F1分数等。

📚 详细文档

模型描述

这是RoBERTa - base的微调版本，专门用于释义检测。它在四个基准数据集（MRPC、QQP、PAWS - X和PIT）上进行训练，适用于重复内容检测、问答系统和语义相似度分析等应用。该模型在不同的语言结构中都展现出了高性能。

开发者：Viswadarshan R R
模型类型：基于Transformer的句子对分类器
语言：英语
微调基础模型：FacebookAI/roberta - base

模型来源

仓库：[Hugging Face模型中心](https://huggingface.co/viswadarshan06/pd - bert/)
研究论文：Comparative Insights into Modern Architectures for Paraphrase Detection（已被ICCIDS 2025接受）
演示：（部署后添加）

使用方式

直接使用

在常见问题解答和客户支持中识别重复问题。
改进信息检索系统中的语义搜索。
增强文档去重和内容审核。

下游使用

该模型可以在特定领域的释义数据集（如医疗、法律或金融领域）上进一步微调。

不适用场景

由于仅在英语数据集上训练，该模型不适用于多语言释义检测。
在没有额外微调的情况下，在低资源语言上的表现可能不佳。

偏差、风险和局限性

已知局限性

习语表达困难：模型在检测比喻性语言中的释义时存在困难。
上下文歧义：当句子需要深入的上下文推理时，可能会出现判断失误。

建议

用户应使用额外的文化和习语数据集对模型进行微调，以提高其在实际应用中的泛化能力。

训练详情

该模型使用四个数据集的组合进行训练：

MRPC：基于新闻的释义数据集。
QQP：重复问题检测数据集。
PAWS - X：用于鲁棒性测试的对抗性释义数据集。
PIT：短文本释义数据集。

训练过程

分词器：RobertaTokenizer
批量大小：16
优化器：AdamW
损失函数：交叉熵

训练超参数

学习率：2e - 5
序列长度：
- MRPC：256
- QQP：336
- PIT：64
- PAWS - X：256

速度、大小和时间

使用的GPU：NVIDIA A100
总训练时间：约6小时
使用的计算单元：80

测试数据、因素和指标

测试数据

模型在组合测试集上进行测试，并在以下指标上进行评估：

准确率
精确率
召回率
F1分数
运行时间

结果

RoBERTa模型评估指标

模型	数据集	准确率 (%)	精确率 (%)	召回率 (%)	F1分数 (%)	运行时间 (秒)
RoBERTa	MRPC验证集	89.22	89.56	95.34	92.36	5.08
RoBERTa	MRPC测试集	87.65	88.53	93.55	90.97	21.98
RoBERTa	QQP验证集	89.17	84.38	86.48	85.42	8.32
RoBERTa	QQP测试集	89.36	85.14	86.56	85.84	19.44
RoBERTa	PAWS - X验证集	94.75	92.58	95.48	94.01	7.78
RoBERTa	PAWS - X测试集	94.60	92.82	95.48	94.13	7.88
RoBERTa	PIT验证集	82.28	82.57	63.47	71.77	7.01
RoBERTa	PIT测试集	90.45	84.67	66.29	74.35	1.47

总结

这个基于RoBERTa的释义检测模型在四个基准数据集（MRPC、QQP、PAWS - X和PIT）上进行了微调，能够在不同的释义结构中表现出强大的性能。该模型可以有效地识别句子对之间的语义相似性，适用于语义搜索、重复内容检测和问答系统等应用。

引用

如果您使用此模型，请引用：

@inproceedings{viswadarshan2025paraphrase,
   title={Comparative Insights into Modern Architectures for Paraphrase Detection},
   author={Viswadarshan R R, Viswaa Selvam S, Felcia Lilian J, Mahalakshmi S},
   booktitle={International Conference on Computational Intelligence, Data Science, and Security (ICCIDS)},
   year={2025},
   publisher={IFIP AICT Series by Springer}
}

模型卡片联系方式

📧 邮箱：viswadarshanrramiya@gmail.com 🔗 GitHub：[Viswadarshan R R](https://github.com/viswadarshan - 024)

📄 许可证

本模型使用Apache - 2.0许可证。

信息表格

属性	详情
模型类型	基于Transformer的句子对分类器
训练数据	MRPC（基于新闻的释义数据集）、QQP（重复问题检测数据集）、PAWS - X（用于鲁棒性测试的对抗性释义数据集）、PIT（短文本释义数据集）
评估指标	准确率、精确率、召回率、F1分数、运行时间
基础模型	FacebookAI/roberta - base
库名称	transformers