许可证: mit
数据集:
- nyu-mll/glue
- google-research-datasets/paws-x
- tasksource/pit
- AlekseyKorshuk/quora-question-pairs
语言:
- en
评估指标:
- 准确率
- F1值
基础模型:
- google-bert/bert-base-cased
库名称: transformers
微调BERT模型卡:复述检测
模型描述
这是基于BERT-base微调的复述检测模型,训练数据来自四个基准数据集:MRPC、QQP、PAWS-X和PIT。该模型适用于重复内容检测、问答系统和语义相似度分析等场景,具有强大的召回能力,能有效识别复杂句式中的复述关系。
- 开发者: Viswadarshan R R
- 模型类型: 基于Transformer的句子对分类器
- 语言: 英语
- 微调基础:
bert-base-cased
模型来源
用途
直接应用
- 识别客户支持和FAQ中的重复问题
- 提升检索式系统的语义搜索能力
- 优化文档去重和文本相似度应用
下游应用
可在医疗、法律、金融等领域通过领域特定数据进一步微调。
非适用场景
- 仅支持英语,多语言任务需额外微调
- 对习语表达或复杂修辞理解有限
偏差、风险与局限
已知局限
- 高召回低精度: 易产生误判复述
- 语境歧义: 对需要深度推理的句子可能误判
改进建议
可通过后处理技术或置信度阈值调整降低误报率。
快速开始
安装transformers后加载模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_path = "viswadarshan06/pd-bert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
inputs = tokenizer("这辆车很快", "该车辆行驶迅速", return_tensors="pt", padding=True, truncation=True)
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax().item()
print("复述" if predicted_class == 1 else "非复述")
训练详情
训练数据
混合使用四个数据集:
- MRPC: 新闻复述
- QQP: 重复问题检测
- PAWS-X: 对抗性复述测试
- PIT: 短文本复述数据集
训练参数
- 分词器: BERT分词器
- 批大小: 16
- 优化器: AdamW
- 损失函数: 交叉熵
超参数
- 学习率: 2e-5
- 序列长度:
- MRPC: 256
- QQP: 336
- PIT: 64
- PAWS-X: 256
硬件配置
- GPU: NVIDIA A100
- 训练时长: ~6小时
- 计算单元: 80
评估指标
BERT模型评估结果
模型 |
数据集 |
准确率(%) |
精确率(%) |
召回率(%) |
F1值(%) |
耗时(秒) |
BERT |
MRPC验证集 |
88.24 |
88.37 |
95.34 |
91.72 |
1.41 |
BERT |
MRPC测试集 |
84.87 |
85.84 |
92.50 |
89.04 |
5.77 |
BERT |
QQP验证集 |
87.92 |
81.44 |
86.86 |
84.06 |
43.24 |
BERT |
QQP测试集 |
88.14 |
82.49 |
86.56 |
84.47 |
43.51 |
BERT |
PAWS-X验证集 |
91.90 |
87.57 |
94.67 |
90.98 |
6.73 |
BERT |
PAWS-X测试集 |
92.60 |
88.69 |
95.92 |
92.16 |
6.82 |
BERT |
PIT验证集 |
77.38 |
72.41 |
58.57 |
64.76 |
4.34 |
BERT |
PIT测试集 |
86.16 |
64.11 |
76.57 |
69.79 |
0.98 |
总结
该模型在复述识别方面展现出优异的召回能力,虽存在过预测倾向,仍是语义相似度任务的强基准模型,可针对特定领域进行再优化。
引用
@inproceedings{viswadarshan2025paraphrase,
title={现代复述检测架构的比较研究},
author={Viswadarshan R R, Viswaa Selvam S, Felcia Lilian J, Mahalakshmi S},
booktitle={计算智能、数据科学与安全国际会议(ICCIDS)},
year={2025},
publisher={Springer的IFIP AICT系列}
}
联系方式
📧 邮箱: viswadarshanrramiya@gmail.com
🔗 GitHub: Viswadarshan R R