DistilRoBERTa基础版模型卡
目录
- 模型详情
- 用途
- 偏见、风险与限制
- 训练详情
- 评估
- 环境影响
- 引用
- 快速开始使用模型
模型详情
模型描述
该模型是RoBERTa-base模型的蒸馏版本,采用与DistilBERT相同的训练流程。蒸馏过程代码详见GitHub仓库。该模型区分大小写(如能区分english和English)。
模型结构为6层Transformer,768维向量空间和12个注意力头,总计8200万参数(原版RoBERTa-base为1.25亿参数)。平均而言,DistilRoBERTa的运行速度是Roberta-base的两倍。
建议用户查阅RoBERTa-base模型卡了解使用方式、局限性和潜在偏见。
- 开发团队:Hugging Face的Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf
- 模型类型:基于Transformer的语言模型
- 支持语言:英语
- 许可证:Apache 2.0
- 相关模型:RoBERTa-base模型卡
- 更多资源:
用途
直接使用与下游任务
虽然可直接用于掩码语言建模,但本模型主要适用于下游任务的微调。可通过模型中心查找您感兴趣任务的微调版本。
注:本模型主要针对需要整句(可能含掩码)决策的任务,如序列分类、标记分类或问答。文本生成类任务建议使用GPT2等模型。
非适用场景
不得用于故意制造敌对或排斥性环境。该模型未针对人物或事件的真实性进行训练,因此生成此类内容超出模型能力范围。
偏见、风险与限制
大量研究已揭示语言模型的偏见问题(参见Sheng等(2021)和Bender等(2021))。模型预测可能包含涉及受保护群体、身份特征及敏感社会职业的有害刻板印象,例如:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("男性从事<mask>工作。")
[{'score': 0.123, 'sequence': '男性从事服务员工作。', 'token_str': '服务员'},
{'score': 0.089, 'sequence': '男性从事女服务员工作。', 'token_str': '女服务员'},
{'score': 0.083, 'sequence': '男性从事调酒师工作。', 'token_str': '调酒师'}]
>>> unmasker("女性从事<mask>工作。")
[{'score': 0.231, 'sequence': '女性从事女服务员工作。', 'token_str': '女服务员'},
{'score': 0.075, 'sequence': '女性从事服务员工作。', 'token_str': '服务员'},
{'score': 0.069, 'sequence': '女性从事调酒师工作。', 'token_str': '调酒师'},
{'score': 0.054, 'sequence': '女性从事护士工作。', 'token_str': '护士'},
{'score': 0.049, 'sequence': '女性从事女佣工作。', 'token_str': '女佣'}]
建议
用户(包括直接使用和下游开发者)应充分了解模型的潜在风险、偏见和局限性。
训练详情
DistilRoBERTa基于OpenWebTextCorpus预训练(数据量约为教师模型RoBERTa的1/4)。更多训练细节参见roberta-base模型卡。
评估
下游任务微调结果如下(详见GitHub仓库):
GLUE测试集表现:
任务 |
MNLI |
QQP |
QNLI |
SST-2 |
CoLA |
STS-B |
MRPC |
RTE |
得分 |
84.0 |
89.4 |
90.8 |
92.5 |
59.3 |
88.3 |
86.6 |
67.9 |
环境影响
碳排放估算可参考Lacoste等(2019)提出的机器学习影响计算器。
- 硬件类型:需补充信息
- 使用时长:需补充信息
- 云服务商:需补充信息
- 计算区域:需补充信息
- 碳排放量:需补充信息
引用
@article{Sanh2019DistilBERTAD,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
journal={ArXiv},
year={2019},
volume={abs/1910.01108}
}
APA格式:
Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.
快速开始使用模型
可通过pipeline直接进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("你好,我是<mask>模特。")
[{'score': 0.046, 'sequence': '你好,我是商业模特。', 'token_str': '商业'},
{'score': 0.038, 'sequence': '你好,我是自由职业模特。', 'token_str': '自由职业'},
{'score': 0.033, 'sequence': '你好,我是时尚模特。', 'token_str': '时尚'},
{'score': 0.030, 'sequence': '你好,我是榜样模特。', 'token_str': '榜样'},
{'score': 0.021, 'sequence': '你好,我是花花公子模特。', 'token_str': '花花公子'}]
