🚀 90% 稀疏 DistilBERT-Base(无大小写区分)一次性剪枝模型
本模型是一个稀疏预训练模型,可针对广泛的语言任务进行微调。权重剪枝过程是将神经网络的部分权重强制设为零。将部分权重设为零会使矩阵变得更稀疏。更新神经网络权重涉及矩阵乘法,如果我们能在保留足够重要信息的同时保持矩阵稀疏,就可以降低整体计算开销。模型名称中的“稀疏”一词表示权重的稀疏比例;更多详细信息,可阅读 Zafrir 等人 (2021)。
来自 Zafrir 等人 (2021) 的一次性剪枝方法可视化:

✨ 主要特性
该模型作为通用稀疏语言模型,虽当前状态不适用于下游预测任务,但可针对多种语言任务进行微调,包括但不限于问答、自然语言推理和情感分类等。
📦 模型详情
📚 预期用途
预期用途 |
描述 |
主要预期用途 |
这是一个通用稀疏语言模型;就目前形式而言,它还不能用于下游预测任务,但可以针对多个语言任务进行微调,包括(但不限于)问答、自然语言推理和情感分类。 |
主要预期用户 |
任何需要高效通用语言模型用于其他下游任务的人。 |
超出范围的用途 |
该模型不应被用于故意为人们创造敌对或排斥性的环境。 |
💻 使用示例
基础用法
以下是在 Python 中导入此模型的示例:
import transformers
model = transformers.AutoModelForQuestionAnswering.from_pretrained('Intel/distilbert-base-uncased-sparse-90-unstructured-pruneofa')
更多代码示例,请参考 GitHub 仓库。
🔧 模型性能指标
所有结果均为两次使用相同超参数和不同种子的独立实验的平均值。
🔧 训练和评估数据
训练和评估数据 |
描述 |
数据集 |
英文维基百科数据集(2500M 个单词)。 |
动机 |
为多个下游语言任务构建一个高效且准确的基础模型。 |
预处理 |
“我们使用英文维基百科数据集(2500M 个单词)在预训练任务上训练模型。我们将数据分为训练集(95%)和验证集(5%)。两个集合都按照模型原始论文中的描述进行预处理 (Devlin 等人, 2019, Sanh 等人, 2019)。我们处理数据以使用模型允许的最大序列长度,不过,我们允许以 0.1 的概率使用较短的序列。” |
🔧 伦理考量
伦理考量 |
描述 |
数据 |
训练数据来自维基百科文章。 |
人类生活 |
该模型并非旨在为对人类生活或繁荣至关重要的决策提供信息。它是一组聚合的带标签的维基百科文章。 |
缓解措施 |
在模型开发过程中未考虑额外的风险缓解策略。 |
风险和危害 |
大量研究探讨了语言模型的偏差和公平性问题(例如,见 Sheng 等人, 2021 和 Bender 等人, 2021)。该模型生成的预测可能包括针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。除此之外,使用该模型所涉及的风险程度仍未知。 |
使用案例 |
- |
🔧 注意事项和建议
⚠️ 重要提示
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。此模型没有额外的注意事项或建议。
📄 许可证
本模型使用 Apache 2.0 许可证。
📖 BibTeX 引用和引用信息
@article{zafrir2021prune,
title={Prune Once for All: Sparse Pre-Trained Language Models},
author={Zafrir, Ofir and Larey, Ariel and Boudoukh, Guy and Shen, Haihao and Wasserblat, Moshe},
journal={arXiv preprint arXiv:2111.05754},
year={2021}
}