语言:英文
推理:不支持
标签:
许可证:其他
商业用途:不可用
OPT:开放预训练Transformer语言模型
OPT首次在论文《开放预训练Transformer语言模型》中提出,并于2022年5月3日由Meta AI在metaseq代码库中发布。
免责声明:发布OPT的团队撰写了官方模型卡片,详见论文附录D。本模型卡片内容由Hugging Face团队编写。
简介
引用官方论文前两段:
基于海量文本训练的大型语言模型展现出惊人的涌现能力,能够生成文本并实现零样本和少样本学习。尽管部分情况下公众可通过付费API与这些模型交互,但完整模型目前仅限少数资源雄厚的实验室使用。这种限制阻碍了研究人员探究大语言模型工作原理的能力,延缓了在鲁棒性、偏见和毒性等已知挑战领域的改进进展。
我们推出开放预训练Transformer(OPT),这是一套参数量从1.25亿到1750亿的解码器专用预训练Transformer模型,旨在向有兴趣的研究者全面且负责任地开放。OPT模型的性能与规模对标GPT-3系列,同时采用数据收集和高效训练的最新最佳实践。我们开发OPT套件的目标是支持可复现的大规模负责任研究,并让更多声音参与研究这些大语言模型的影响。关于风险、危害、偏见和毒性等的定义,应由整个研究共同体共同阐明——这只有在模型可被研究时才能实现。
模型描述
OPT主要基于英文文本预训练,但通过CommonCrawl在训练语料中仍包含少量非英语数据。模型采用因果语言建模(CLM)目标进行预训练。
OPT与GPT-3同属解码器专用模型家族,因此其预训练使用了自监督的因果语言建模目标。
评估方面,OPT沿用GPT-3的提示词和整体实验设置。详情请参阅官方论文。
预期用途与限制
纯预训练模型可用于下游任务提示评估及文本生成。此外,该模型可通过CLM示例对下游任务进行微调。其他OPT模型请查看模型中心。
使用方法
可直接通过文本生成管道使用该模型:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model="facebook/opt-125m")
>>> generator("晚餐吃什么?")
[{'generated_text': '晚餐吃什么?\n和朋友共进美味晚餐。\n我不确定'}]
默认生成是确定性的。若需使用top-k采样,请将do_sample
设为True
:
>>> from transformers import pipeline, set_seed
>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-125m", do_sample=True)
>>> generator("晚餐吃什么?")
[{'generated_text': '晚餐吃什么?\n在Chili's餐厅享用咖啡、香肠和奶油芝士。'}]
局限性与偏见
如Meta AI模型卡片所述,由于训练数据包含大量未经过滤的互联网内容(远非中立),该模型存在显著偏见:
与其他因训练数据多样性不足而影响模型质量的大语言模型类似,OPT-175B在偏见和安全性方面存在局限。其生成多样性和幻觉问题也可能影响质量。总体而言,OPT-175B无法避免困扰现代大语言模型的诸多问题。
这种偏见也会影响该模型的所有微调版本。
训练数据
Meta AI团队期望在尽可能大的语料库上训练模型。最终训练数据由以下5个过滤后的文本数据集组成:
- BookCorpus:包含1万+未出版书籍
- CC-Stories:经筛选的CommonCrawl子集,内容风格匹配Winograd模式
- The Pile:包含Pile-CC、OpenWebText2、USPTO、古登堡计划、OpenSubtitles、维基百科、DM数学和HackerNews
- Pushshift.io Reddit数据集(经Baumgartner等人(2020)开发,Roller等人(2021)处理)
- CCNewsV2:RoBERTa使用的CommonCrawl新闻数据集英文部分更新版
最终训练数据包含1800亿token(约800GB)。验证集从预训练数据中按比例抽取200MB。
数据可能包含冒犯性内容,因其部分来自公开Common Crawl和Reddit数据,其中可能存在直接查看时会引发不适的文本。
收集流程
数据从互联网收集,经过经典数据处理算法和重构实践(如删除"第一章"等重复/非信息性文本)。
训练流程
预处理
文本使用GPT2字节级BPE(针对Unicode字符)进行分词,词表大小为50272。输入为2048个连续token组成的序列。
1750亿参数模型在992块80GB A100 GPU上训练,持续约33天。
BibTeX引用
@misc{zhang2022opt,
title={OPT: 开放预训练Transformer语言模型},
author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
year={2022},
eprint={2205.01068},
archivePrefix={arXiv},
primaryClass={cs.CL}
}