语言:
'挪威语'
书面挪威语(Bokmål)
新挪威语(Nynorsk)
标签:
许可证:
数据集:
管道标签:
额外授权标题: "确认许可以接受仓库"
额外授权提示: "您同意不使用该模型进行对人类受试者造成伤害的实验。"
额外授权字段:
公司: 文本
国家: 文本
用途: 文本
所有检查点
- **发布 v1beta5** (2022年12月18日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-sharded)和[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-float16)权重*
- **发布 v1beta4** (2022年10月28日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-sharded)和[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-float16)权重*
- **发布 v1beta3** (2022年8月8日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-sharded)和[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-float16)权重*
- **发布 v1beta2** (2022年6月18日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/sharded)和[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2-float16)权重*
- **发布 v1beta1** (2022年4月28日) *[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta1-float16)权重*
NB-GPT-J-6B
演示: https://ai.nb.no/demo/nb-gpt-j-6B/ (请耐心等待,它在CPU上运行 😅)
模型描述
NB-GPT-J-6B是基于GPT-J 6B的挪威语微调版本,后者是使用Ben Wang的Mesh Transformer JAX 训练的Transformer模型。"GPT-J"指模型类别,"6B"代表可训练参数数量(60亿参数)。
超参数
值
\(n_{参数}\)
6053381344
\(n_{层数}\)
28*
\(d_{模型}\)
4096
\(d_{前馈}\)
16384
\(n_{头数}\)
16
\(d_{头维}\)
256
\(n_{上下文}\)
2048
\(n_{词表}\)
50257/50400† (与GPT-2/3相同分词器)
位置编码
旋转位置嵌入(RoPE)
RoPE维度
64
* 每层包含一个前馈块和一个自注意力块。
† 虽然嵌入矩阵大小为50400,但GPT-2分词器仅使用50257个条目。
该模型由28层组成,模型维度为4096,前馈维度为16384。模型维度被分割为16个头,每个头维度为256。旋转位置嵌入(RoPE)应用于每个头的64个维度。模型使用50257的分词词汇表训练,采用与GPT-2/GPT-3相同的BPE集。
训练数据
NB-GPT-J-6B在NCC (挪威巨量语料库)上微调,并辅以维基百科、mC4和OSCAR等互联网来源。
训练过程
该模型在TPU v3-8 VM上进行了1,000,000步、1300亿token的微调训练。作为自回归语言模型,它通过交叉熵损失最大化预测下一个token的似然。
预期用途与限制
NB-GPT-J-6B学习挪威语内部表示,可用于提取下游任务特征。但其最擅长预训练目标——根据提示生成文本。
使用方法
可通过AutoModelForCausalLM
轻松加载:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("NbAiLab/nb-gpt-j-6B" )
model = AutoModelForCausalLM.from_pretrained("NbAiLab/nb-gpt-j-6B" )
限制与偏差
核心功能是预测文本串的下一个token。需注意统计最可能的下一个token未必产生最"准确"文本,切勿依赖其输出事实准确性。
原始GPT-J在Pile数据集上训练,该数据集包含冒犯性内容。微调语料的偏差分析尚待进行。所有语言模型都可能意外生成不当内容,建议人工审核输出。
评估结果
尚需寻找合适数据集进行评估,欢迎协助!
引用与相关信息
BibTeX条目
引用模型或语料:
@inproceedings{kummervold2021operationalizing,
title={实现国家数字图书馆:挪威Transformer模型案例},
author={Kummervold, Per E and De la Rosa, Javier and Wetjen, Freddy and Brygfjeld, Svein Arne},
booktitle={第23届北欧计算语言学会议论文集(NoDaLiDa)},
pages={20--29},
year={2021},
url={https://aclanthology.org/2021.nodalida-main.3/}
}
使用本模型请通过推特、GitHub、Discord或邮件联系我们。
免责声明
本仓库模型为通用目的发布,可能存在偏见或其他不良失真。第三方使用这些模型时须自行承担风险并遵守相关法规。挪威国家图书馆不对使用结果负责。
致谢
特别感谢Google通过TPU研究云 提供算力支持,以及Cloud TPU团队早期访问Cloud TPU VM Alpha。感谢Stella Biderman 的开放态度,以及Ben Wang 提供核心代码库。