language:
- 多语言
- 南非荷兰语
- 阿尔巴尼亚语
- 阿拉伯语
- 阿拉贡语
- 亚美尼亚语
- 阿斯图里亚斯语
- 阿塞拜疆语
- 巴什基尔语
- 巴斯克语
- 巴伐利亚语
- 白俄罗斯语
- 孟加拉语
- 印度语族
- 波斯尼亚语
- 布列塔尼语
- 保加利亚语
- 缅甸语
- 加泰罗尼亚语
- 宿务语
- 车臣语
- 中文
- 楚瓦什语
- 克罗地亚语
- 捷克语
- 丹麦语
- 荷兰语
- 英语
- 爱沙尼亚语
- 芬兰语
- 法语
- 加利西亚语
- 格鲁吉亚语
- 德语
- 希腊语
- 古吉拉特语
- 海地克里奥尔语
- 希伯来语
- 印地语
- 匈牙利语
- 冰岛语
- 伊多语
- 印尼语
- 爱尔兰语
- 意大利语
- 日语
- 爪哇语
- 卡纳达语
- 哈萨克语
- 吉尔吉斯语
- 韩语
- 拉丁语
- 拉脱维亚语
- 立陶宛语
- 罗曼语族
- 低地德语
- 林堡语
- 马其顿语
- 马尔加什语
- 马来语
- 马拉雅拉姆语
- 马拉地语
- 蒙古语
- 米南佳保语
- 尼泊尔语
- 尼瓦尔语
- 挪威书面语
- 新挪威语
- 奥克语
- 波斯语
- 皮埃蒙特语
- 波兰语
- 葡萄牙语
- 旁遮普语
- 罗马尼亚语
- 俄语
- 苏格兰语
- 塞尔维亚语
- 克罗地亚语
- 西西里语
- 斯洛伐克语
- 斯洛文尼亚语
- 阿塞拜疆语
- 西班牙语
- 巽他语
- 斯瓦希里语
- 瑞典语
- 他加禄语
- 塔吉克语
- 泰语
- 泰米尔语
- 鞑靼语
- 泰卢固语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 沃拉普克语
- 瓦瑞语
- 威尔士语
- 西弗里斯兰语
- 西旁遮普语
- 约鲁巴语
license: apache-2.0
datasets:
- 维基百科
DistilBERT 基础多语言(区分大小写)模型卡
目录
- 模型详情
- 用途
- 偏见、风险与限制
- 训练详情
- 评估
- 环境影响
- 引用
- 如何开始使用该模型
模型详情
模型描述
该模型是BERT基础多语言模型的蒸馏版本。蒸馏过程的代码可在此处找到。该模型区分大小写:例如"english"和"English"会被视为不同。
模型在104种不同语言的维基百科数据上训练,语言列表详见此处。
模型包含6层,768维度和12个头,总计1.34亿参数(相比mBERT-base的1.77亿参数)。
平均而言,该模型(称为DistilmBERT)的速度是mBERT-base的两倍。
建议潜在用户查看BERT基础多语言模型卡以了解更多使用方式、限制和潜在偏见。
- 开发者: Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf (Hugging Face)
- 模型类型: 基于Transformer的语言模型
- 支持语言: 104种语言;完整列表见此处
- 许可证: Apache 2.0
- 相关模型: BERT基础多语言模型
- 更多信息:
用途
直接使用与下游使用
原始模型可用于掩码语言建模或下一句预测,但主要目的是在下游任务上进行微调。请参阅模型中心寻找您感兴趣任务的微调版本。
注意该模型主要适用于需要利用完整句子(可能包含掩码)进行决策的任务,如序列分类、标记分类或问答。对于文本生成等任务,应使用GPT2等模型。
超出范围的使用
该模型不应被用于故意制造敌对或疏远的环境。模型未经过训练以生成关于人物或事件的真实表述,因此用于生成此类内容超出了模型的能力范围。
偏见、风险与限制
大量研究已探讨了语言模型的偏见和公平性问题(参见Sheng et al. (2021)和Bender et al. (2021))。模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
建议
用户(包括直接使用和下游用户)应了解模型的风险、偏见和限制。
训练详情
评估
模型开发者报告了DistilmBERT在XNLI测试集上的准确率结果(见GitHub仓库):
以下是XNLI中6种语言的测试结果。结果是在零样本设置下计算的(在英语部分训练,在目标语言部分评估):
模型 |
英语 |
西班牙语 |
中文 |
德语 |
阿拉伯语 |
乌尔都语 |
mBERT基础区分大小写(计算) |
82.1 |
74.6 |
69.1 |
72.3 |
66.4 |
58.5 |
mBERT基础不区分大小写(报告) |
81.4 |
74.3 |
63.8 |
70.5 |
62.1 |
58.3 |
DistilmBERT |
78.2 |
69.1 |
64.0 |
66.3 |
59.1 |
54.7 |
环境影响
碳排放量可使用Lacoste et al. (2019)提出的机器学习影响计算器估算。
- 硬件类型: 需要更多信息
- 使用时长: 需要更多信息
- 云服务提供商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
引用
@article{Sanh2019DistilBERTAD,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
journal={ArXiv},
year={2019},
volume={abs/1910.01108}
}
APA格式
- Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.
如何开始使用该模型
您可以直接使用管道进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")
[{'score': 0.040800247341394424,
'sequence': "Hello I'm a virtual model.",
'token': 37859,
'token_str': 'virtual'},
{'score': 0.020015988498926163,
'sequence': "Hello I'm a big model.",
'token': 22185,
'token_str': 'big'},
{'score': 0.018680453300476074,
'sequence': "Hello I'm a Hello model.",
'token': 31178,
'token_str': 'Hello'},
{'score': 0.017396586015820503,
'sequence': "Hello I'm a model model.",
'token': 13192,
'token_str': 'model'},
{'score': 0.014229810796678066,
'sequence': "Hello I'm a perfect model.",
'token': 43477,
'token_str': 'perfect'}]