language:
英文
韩文
pipeline_tag: 文本生成
tags:
pytorch
llama
因果语言模型
42dot_llm
license: cc-by-nc-4.0
42dot_LLM-PLM-1.3B
42dot LLM-PLM 是由42dot 开发的一个预训练语言模型(PLM),属于42dot LLM (大语言模型)系列的一部分。42dot LLM-PLM 使用韩文和英文文本语料库进行预训练,可作为多种韩文和英文自然语言任务的基础语言模型。本仓库包含该模型的13亿参数版本。
模型描述
超参数
42dot LLM-PLM 基于类似于LLaMA 2 的Transformer解码器架构构建,其超参数如下表所示。
参数
层数
注意力头数
隐藏层大小
FFN大小
1.3B
24
32
2,048
5,632
预训练
预训练耗时约49K GPU小时(NVIDIA A100)。相关设置如下表所示。
参数
全局批次大小*
初始学习率
训练迭代次数*
最大长度*
权重衰减
1.3B
4.0M
4E-4
1.4T
4,096
0.1
(* 单位:词元)
预训练数据集
我们使用了一系列公开可用的文本语料库,包括:
分词器
分词器基于字节级BPE算法。我们使用预训练语料库的一个子集从头训练其词汇表。为了构建子集,分别从韩文和英文语料库中采样了10M和10M文档。最终的词汇表大小约为50K。
零样本评估
我们在多个韩文和英文学术基准上评估了42dot LLM-PLM。所有结果均使用lm-eval-harness 和Hugging Face Hub上发布的模型获得。
韩文(KOBEST)
任务/宏F1
KoGPT2 1.2B
Polyglot-Ko 1.3B
XGLM 1.7B
PolyLM 1.7B
42dot LLM-PLM 1.3B
boolq
0.337
0.355
0.502
0.334
0.369
copa
0.67
0.721
0.616
0.513
0.704
hellaswag
0.404
0.401
0.374
0.321
0.431
sentineg
0.606
0.679
0.46
0.382
0.69
平均
0.504
0.539
0.488
0.388
0.549
英文
任务/指标
MPT 1B
OPT 1.3B
XGLM 1.7B
PolyLM 1.7B
42dot LLM-PLM 1.3B
anli_r1/准确率
0.309
0.341
0.334
0.336
0.325
anli_r2/准确率
0.334
0.339
0.331
0.314
0.34
anli_r3/准确率
0.33
0.336
0.333
0.339
0.333
arc_challenge/准确率
0.268
0.234
0.21
0.198
0.288
arc_challenge/归一化准确率
0.291
0.295
0.243
0.256
0.317
arc_easy/准确率
0.608
0.571
0.537
0.461
0.628
arc_easy/归一化准确率
0.555
0.51
0.479
0.404
0.564
boolq/准确率
0.517
0.578
0.585
0.617
0.624
hellaswag/准确率
0.415
0.415
0.362
0.322
0.422
hellaswag/归一化准确率
0.532
0.537
0.458
0.372
0.544
openbookqa/准确率
0.238
0.234
0.17
0.166
0.222
openbookqa/归一化准确率
0.334
0.334
0.298
0.334
0.34
piqa/准确率
0.714
0.718
0.697
0.667
0.725
piqa/归一化准确率
0.72
0.724
0.703
0.649
0.727
record/F1分数
0.84
0.857
0.775
0.681
0.848
record/精确匹配率
0.832
0.849
0.769
0.674
0.839
rte/准确率
0.541
0.523
0.559
0.513
0.542
truthfulqa_mc/mc1
0.224
0.237
0.215
0.251
0.236
truthfulqa_mc/mc2
0.387
0.386
0.373
0.428
0.387
wic/准确率
0.498
0.509
0.503
0.5
0.502
winogrande/准确率
0.574
0.595
0.55
0.519
0.583
平均
0.479
0.482
0.452
0.429
0.492
局限性与伦理考量
42dot LLM-PLM与其他大语言模型(LLM)共享一些众所周知的局限性。例如,由于42dot LLM-PLM也存在幻觉 问题,它可能会生成虚假和误导性内容。此外,由于使用了网络可用的训练数据,42dot LLM-PLM可能会生成有毒、有害和带有偏见的内容。我们强烈建议42dot LLM-PLM的用户意识到这些局限性,并采取必要措施来缓解这些问题。
免责声明
42dot LLM系列(“42dot LLM”)生成的内容并不一定反映42dot Inc.(“42dot”)的观点或意见。42dot对因使用42dot LLM及其生成内容而导致的任何直接、间接、暗示性、惩罚性、特殊性、附带性或后果性损害不承担任何责任。
许可证
42dot LLM-PLM采用知识共享署名-非商业性使用4.0(CC BY-NC 4.0)许可协议。
引用
@misc{42dot2023llm,
title={42dot LLM: A Series of Large Language Model by 42dot},
author={42dot Inc.},
year={2023},
url = {https://github.com/42dot/42dot_LLM},
version = {1.0.0},
}