🚀 蒸馏RoBERTa基础模型 - SQuAD v2
本模型是基于SQuAD v2数据集对distilroberta-base进行微调后的版本,可用于抽取式问答任务,能处理问题与上下文不匹配的情况。同时,该模型支持PyTorch
、Tensorflow
和ONNX
框架。
🚀 快速开始
本模型是在抽取式问答任务——斯坦福问答数据集SQuAD2.0上进行微调的。为方便使用,该模型支持PyTorch
、Tensorflow
和ONNX
框架。
✨ 主要特性
- 该模型可以处理不匹配的问题 - 上下文对。在使用
QuestionAnsweringPipeline
时,请确保指定handle_impossible_answer=True
。
💻 使用示例
基础用法
>>> from transformers import AutoModelForQuestionAnswering, AutoTokenizer, QuestionAnsweringPipeline
>>> model = AutoModelForQuestionAnswering.from_pretrained("squirro/distilroberta-base-squad_v2")
>>> tokenizer = AutoTokenizer.from_pretrained("squirro/distilroberta-base-squad_v2")
>>> qa_model = QuestionAnsweringPipeline(model, tokenizer)
>>> qa_model(
>>> question="What's your name?",
>>> context="My name is Clara and I live in Berkeley.",
>>> handle_impossible_answer=True
>>> )
{'score': 0.9498472809791565, 'start': 11, 'end': 16, 'answer': 'Clara'}
📚 详细文档
训练和评估数据
训练和评估均在SQuAD2.0数据集上进行。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:5e-05
- 训练批次大小:64
- 评估批次大小:8
- 随机种子:42
- 分布式类型:TPU
- 设备数量:8
- 总训练批次大小:512
- 总评估批次大小:64
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:线性
- 训练轮数:3.0
训练结果
指标 |
值 |
训练轮数 |
3 |
有答案样本的精确匹配率 |
67.5776 |
有答案样本的F1分数 |
74.3594 |
有答案样本总数 |
5928 |
无答案样本的精确匹配率 |
62.91 |
无答案样本的F1分数 |
62.91 |
无答案样本总数 |
5945 |
最佳精确匹配率 |
65.2489 |
最佳精确匹配阈值 |
0 |
最佳F1分数 |
68.6349 |
最佳F1分数阈值 |
0 |
精确匹配率 |
65.2405 |
F1分数 |
68.6265 |
评估样本数 |
12165 |
评估总数 |
11873 |
训练损失 |
1.40336 |
训练运行时间 |
1365.28 |
训练样本数 |
131823 |
每秒训练样本数 |
289.662 |
每秒训练步数 |
0.567 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.9.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.6
📄 许可证
本模型采用Apache-2.0许可证。
🔍 关于我们

Squirro将来自任何来源的数据与你的意图和上下文相结合,在你需要时智能地增强决策能力!
Squirro作为一个核心洞察引擎,主要与金融服务、公共部门、专业服务和制造业等领域的全球组织合作。其客户包括英格兰银行、欧洲中央银行(ECB)、德意志联邦银行、渣打银行、汉高、阿乐斯、坎德里安等众多世界领先企业。
Squirro成立于2012年,目前在苏黎世、伦敦、纽约和新加坡设有办事处。有关人工智能驱动的商业洞察的更多信息,请访问官网。
社交媒体平台