RoBERTa大型MNLI模型
目录
模型详情
模型描述: roberta-large-mnli是基于RoBERTa大型模型在多体裁自然语言推理(MNLI)语料库上微调的版本。该模型是通过掩码语言建模(MLM)目标在英文文本上预训练的语言模型。
- 开发者: 参见GitHub仓库
- 模型类型: 基于Transformer的语言模型
- 支持语言: 英语
- 许可协议: MIT
- 基础模型: 本模型是RoBERTa大型模型的微调版本,相关信息请参阅RoBERTa大型模型卡
- 更多资源:
快速使用指南
使用以下代码加载模型进行零样本分类:
from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
示例分类应用:
待分类文本 = "总有一天我会环游世界"
候选标签 = ['旅行', '烹饪', '舞蹈']
classifier(待分类文本, 候选标签)
用途
直接应用
适用于零样本分类任务,包括零样本文本对分类和序列分类。
不当使用与超范围应用
不得用于制造敌对或排斥性环境。由于模型并非为生成事实性内容而设计,因此相关应用超出模型能力范围。
风险、局限性与偏见
内容警告:本节可能包含令人不适的内容,会传播历史及现有偏见。
研究显示语言模型存在偏见问题(参见Sheng等(2021)和Bender等(2021))。RoBERTa大型模型卡指出:"训练数据包含大量未过滤的互联网内容,远非中立"。
模型预测可能包含针对受保护群体、身份特征及敏感社会职业的刻板印象,例如:
待分类文本 = "这位CEO握手有力。"
候选标签 = ['男性', '女性']
假设模板 = "这段文字描述的是{}职业。"
classifier(待分类文本, 候选标签, hypothesis_template=假设模板)
用户需充分了解模型的风险与局限。
训练过程
训练数据
微调使用多体裁自然语言推理(MNLI)语料库。基础模型预训练数据包括:
总计160GB文本数据。
训练流程
预处理
- 使用50,000词表的BPE编码
- 输入为512个连续token的片段
- 动态掩码策略:15%token被掩码,其中80%替换为
<mask>
,10%随机替换,10%保留原词
预训练
- 硬件:1024块V100 GPU
- 训练步数:500K
- 批次大小:8K
- 优化器:Adam(学习率4e-4,β₁=0.9,β₂=0.98)
- 学习率:30,000步预热后线性衰减
评估结果
测试数据与指标
在以下数据集评估:
- GLUE-MNLI:文本蕴含任务,准确率90.2
- XNLI:15种语言跨语言评估:
任务 |
英语 |
法语 |
西语 |
德语 |
希腊语 |
保语 |
俄语 |
土语 |
阿语 |
越语 |
泰语 |
中文 |
印语 |
斯语 |
乌语 |
准确率 |
91.3 |
82.91 |
84.27 |
81.24 |
81.74 |
83.13 |
78.28 |
76.79 |
76.64 |
74.17 |
74.05 |
77.5 |
70.9 |
66.65 |
66.81 |
环境影响
使用Lacoste等(2019)提出的计算器估算:
- 硬件: 1024块V100 GPU
- 训练时长: 24小时
- 碳排放: 未披露
技术规格
详见相关论文中的模型架构、目标函数和训练细节。
引用信息
@article{liu2019roberta,
title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach},
author = {Yinhan Liu等},
journal={arXiv preprint arXiv:1907.11692},
year = {2019},
}