许可证:apache-2.0
数据集:
- nyu-mll/glue
- google-research-datasets/paws-x
- tasksource/pit
- AlekseyKorshuk/quora-question-pairs
评估指标:
- 准确率
- F1分数
基础模型:
- FacebookAI/roberta-base
库名称:transformers
微调版RoBERTa复述检测模型卡
模型描述
这是基于RoBERTa-base微调的复述检测模型,训练数据来自四大基准数据集:MRPC、QQP、PAWS-X和PIT。适用于重复内容检测、问答系统、语义相似度分析等场景,在多样化语言结构中均表现优异。
- 开发者: Viswadarshan R R
- 模型类型: 基于Transformer的句子对分类器
- 语言: 英语
- 微调基础:
FacebookAI/roberta-base
模型来源
用途
直接使用
- 识别FAQ和客服中的重复问题
- 提升信息检索系统的语义搜索能力
- 优化文档去重和内容审核
下游任务
可基于领域特定数据(如医疗、法律、金融)进一步微调。
非适用场景
- 不支持多语言复述检测(仅限英语)
- 未经额外微调时在低资源语言上效果有限
偏差、风险与局限
已知局限
- 习语理解困难:对比喻性语言的复述识别能力较弱
- 语境歧义:需深度上下文推理时可能失效
建议
建议用户补充文化习语数据集进行微调以提升实际应用泛化能力。
快速开始
安装transformers后按以下方式加载模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_path = "viswadarshan06/pd-robert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
inputs = tokenizer("这辆车很快。", "该车辆行驶迅速。", return_tensors="pt", padding=True, truncation=True)
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax().item()
print("复述" if predicted_class == 1 else "非复述")
训练详情
训练数据
联合训练四大数据集:
- MRPC:新闻复述
- QQP:重复问题检测
- PAWS-X:对抗性复述(鲁棒性测试)
- PIT:短文本复述
训练流程
- 分词器: RobertaTokenizer
- 批大小: 16
- 优化器: AdamW
- 损失函数: 交叉熵
超参数
- 学习率: 2e-5
- 序列长度:
- MRPC: 256
- QQP: 336
- PIT: 64
- PAWS-X: 256
硬件配置
- GPU: NVIDIA A100
- 总训练时长: ~6小时
- 计算单元: 80
测试数据与指标
评估维度
性能表现
RoBERTa模型评估指标
模型 |
数据集 |
准确率(%) |
精确率(%) |
召回率(%) |
F1分数(%) |
耗时(秒) |
RoBERTa |
MRPC验证集 |
89.22 |
89.56 |
95.34 |
92.36 |
5.08 |
RoBERTa |
MRPC测试集 |
87.65 |
88.53 |
93.55 |
90.97 |
21.98 |
RoBERTa |
QQP验证集 |
89.17 |
84.38 |
86.48 |
85.42 |
8.32 |
RoBERTa |
QQP测试集 |
89.36 |
85.14 |
86.56 |
85.84 |
19.44 |
RoBERTa |
PAWS-X验证集 |
94.75 |
92.58 |
95.48 |
94.01 |
7.78 |
RoBERTa |
PAWS-X测试集 |
94.60 |
92.82 |
95.48 |
94.13 |
7.88 |
RoBERTa |
PIT验证集 |
82.28 |
82.57 |
63.47 |
71.77 |
7.01 |
RoBERTa |
PIT测试集 |
90.45 |
84.67 |
66.29 |
74.35 |
1.47 |
总结
本模型基于RoBERTa架构,在四大复述检测基准数据集上微调而成,能有效识别多样化语义相似结构,适用于语义搜索、内容去重及问答系统等场景。
引用
若使用本模型,请引用:
@inproceedings{viswadarshan2025paraphrase,
title={现代复述检测架构的比较研究},
author={Viswadarshan R R, Viswaa Selvam S, Felcia Lilian J, Mahalakshmi S},
booktitle={计算智能、数据科学与安全国际会议(ICCIDS)},
year={2025},
publisher={Springer旗下IFIP AICT系列}
}
联系作者
📧 邮箱:viswadarshanrramiya@gmail.com
🔗 GitHub:Viswadarshan R R