🚀 用于释义检测的微调RoBERTa模型卡片
本模型是基于RoBERTa的微调模型,用于释义检测任务。它在多个基准数据集上进行训练,能够有效识别句子对之间的语义相似性,适用于语义搜索、重复内容检测等多种应用场景。
🚀 快速开始
要使用该模型,需安装transformers
库,并按以下方式加载微调后的模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_path = "viswadarshan06/pd-robert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
inputs = tokenizer("The car is fast.", "The vehicle moves quickly.", return_tensors="pt", padding=True, truncation=True)
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax().item()
print("Paraphrase" if predicted_class == 1 else "Not a Paraphrase")
✨ 主要特性
- 多数据集训练:在MRPC、QQP、PAWS - X和PIT四个基准数据集上进行训练,能适应不同的语言结构。
- 广泛应用:可用于重复问题识别、语义搜索、文档去重和内容审核等多种应用场景。
- 高性能表现:在多个评估指标上表现出色,如准确率、精确率、召回率和F1分数等。
📚 详细文档
模型描述
这是RoBERTa - base的微调版本,专门用于释义检测。它在四个基准数据集(MRPC、QQP、PAWS - X和PIT)上进行训练,适用于重复内容检测、问答系统和语义相似度分析等应用。该模型在不同的语言结构中都展现出了高性能。
- 开发者:Viswadarshan R R
- 模型类型:基于Transformer的句子对分类器
- 语言:英语
- 微调基础模型:
FacebookAI/roberta - base
模型来源
- 仓库:[Hugging Face模型中心](https://huggingface.co/viswadarshan06/pd - bert/)
- 研究论文:Comparative Insights into Modern Architectures for Paraphrase Detection(已被ICCIDS 2025接受)
- 演示:(部署后添加)
使用方式
直接使用
- 在常见问题解答和客户支持中识别重复问题。
- 改进信息检索系统中的语义搜索。
- 增强文档去重和内容审核。
下游使用
该模型可以在特定领域的释义数据集(如医疗、法律或金融领域)上进一步微调。
不适用场景
- 由于仅在英语数据集上训练,该模型不适用于多语言释义检测。
- 在没有额外微调的情况下,在低资源语言上的表现可能不佳。
偏差、风险和局限性
已知局限性
- 习语表达困难:模型在检测比喻性语言中的释义时存在困难。
- 上下文歧义:当句子需要深入的上下文推理时,可能会出现判断失误。
建议
用户应使用额外的文化和习语数据集对模型进行微调,以提高其在实际应用中的泛化能力。
训练详情
该模型使用四个数据集的组合进行训练:
- MRPC:基于新闻的释义数据集。
- QQP:重复问题检测数据集。
- PAWS - X:用于鲁棒性测试的对抗性释义数据集。
- PIT:短文本释义数据集。
训练过程
- 分词器:RobertaTokenizer
- 批量大小:16
- 优化器:AdamW
- 损失函数:交叉熵
训练超参数
- 学习率:2e - 5
- 序列长度:
- MRPC:256
- QQP:336
- PIT:64
- PAWS - X:256
速度、大小和时间
- 使用的GPU:NVIDIA A100
- 总训练时间:约6小时
- 使用的计算单元:80
测试数据、因素和指标
测试数据
模型在组合测试集上进行测试,并在以下指标上进行评估:
结果
RoBERTa模型评估指标
模型 |
数据集 |
准确率 (%) |
精确率 (%) |
召回率 (%) |
F1分数 (%) |
运行时间 (秒) |
RoBERTa |
MRPC验证集 |
89.22 |
89.56 |
95.34 |
92.36 |
5.08 |
RoBERTa |
MRPC测试集 |
87.65 |
88.53 |
93.55 |
90.97 |
21.98 |
RoBERTa |
QQP验证集 |
89.17 |
84.38 |
86.48 |
85.42 |
8.32 |
RoBERTa |
QQP测试集 |
89.36 |
85.14 |
86.56 |
85.84 |
19.44 |
RoBERTa |
PAWS - X验证集 |
94.75 |
92.58 |
95.48 |
94.01 |
7.78 |
RoBERTa |
PAWS - X测试集 |
94.60 |
92.82 |
95.48 |
94.13 |
7.88 |
RoBERTa |
PIT验证集 |
82.28 |
82.57 |
63.47 |
71.77 |
7.01 |
RoBERTa |
PIT测试集 |
90.45 |
84.67 |
66.29 |
74.35 |
1.47 |
总结
这个基于RoBERTa的释义检测模型在四个基准数据集(MRPC、QQP、PAWS - X和PIT)上进行了微调,能够在不同的释义结构中表现出强大的性能。该模型可以有效地识别句子对之间的语义相似性,适用于语义搜索、重复内容检测和问答系统等应用。
引用
如果您使用此模型,请引用:
@inproceedings{viswadarshan2025paraphrase,
title={Comparative Insights into Modern Architectures for Paraphrase Detection},
author={Viswadarshan R R, Viswaa Selvam S, Felcia Lilian J, Mahalakshmi S},
booktitle={International Conference on Computational Intelligence, Data Science, and Security (ICCIDS)},
year={2025},
publisher={IFIP AICT Series by Springer}
}
模型卡片联系方式
📧 邮箱:viswadarshanrramiya@gmail.com
🔗 GitHub:[Viswadarshan R R](https://github.com/viswadarshan - 024)
📄 许可证
本模型使用Apache - 2.0许可证。
信息表格
属性 |
详情 |
模型类型 |
基于Transformer的句子对分类器 |
训练数据 |
MRPC(基于新闻的释义数据集)、QQP(重复问题检测数据集)、PAWS - X(用于鲁棒性测试的对抗性释义数据集)、PIT(短文本释义数据集) |
评估指标 |
准确率、精确率、召回率、F1分数、运行时间 |
基础模型 |
FacebookAI/roberta - base |
库名称 |
transformers |