语言:
- 英语
- 韩语
许可证: 其他
标签:
- facebook
- meta
- pytorch
- llama
- llama-3
- llama-3-ko
管道标签: 文本生成
许可证名称: llama3
许可证链接: LICENSE
2024.05.20 更新:重新上传修复了 RoPE 的模型
2024.05.01 更新:预发布 Llama-3-KoEn-8B 模型和 Llama-3-KoEn-8B-Instruct-preview
2024.04.24 更新:发布 Llama-3-Open-Ko-8B 模型和 Llama-3-Open-Ko-8B-Instruct-preview
模型详情
Llama-3-Open-Ko-8B
Llama-3-Open-Ko-8B 模型是基于 Llama-3-8B 继续预训练的语言模型。
该模型完全使用公开可用的资源进行训练,包含超过 60GB 的去重文本。
借助新的 Llama-3 分词器,预训练使用了超过 177 亿个标记,略多于韩语分词器(Llama-2-Ko 分词器)。
训练在 TPUv5e-256 上完成,得到了 Google TRC 计划的大力支持。
关于 Llama-3-Open-Ko-8B-Instruct-preview 的说明
应用 Chat Vector 论文 中的思路,我发布了名为 Llama-3-Open-Ko-8B-Instruct-preview 的指令模型。
由于它并未使用任何韩语指令集进行微调(确实是 preview
),但它将是创建新聊天/指令模型的良好起点。
Meta Llama-3
Meta 开发并发布了 Meta Llama 3 系列大语言模型(LLMs),这是一组 8B 和 70B 规模的预训练和指令调优生成文本模型。Llama 3 指令调优模型针对对话用例进行了优化,在常见行业基准测试中优于许多开源聊天模型。此外,在开发这些模型时,我们特别注重优化帮助性和安全性。
模型开发者 Junbum Lee (Beomi)
变体 Llama-3-Open-Ko 仅有一种规模 —— 8B。
输入 模型仅输入文本。
输出 模型生成文本和代码。
模型架构 Llama 3 是一种自回归语言模型,使用了优化的 Transformer 架构。
|
训练数据
|
参数
|
上下文长度
|
GQA
|
标记数量
|
知识截止
|
Llama-3-Open-Ko
|
与 *Open-Solar-Ko 数据集相同
|
8B
|
8k
|
是
|
177 亿+
|
2023 年 6 月
|
*数据集列表可在此处找到:https://huggingface.co/beomi/OPEN-SOLAR-KO-10.7B/tree/main/corpus
模型发布日期 2024.04.24。
状态 这是一个基于离线数据集训练的静态模型。
许可证 Llama3 许可证:https://llama.meta.com/llama3/license
预期用途
预期用例 Llama 3 适用于英语的商业和研究用途。指令调优模型适用于类似助手的聊天场景,而预训练模型可适应各种自然语言生成任务。
超出范围 任何违反适用法律或法规(包括贸易合规法律)的使用方式。任何其他被《可接受使用政策》和 Llama 3 社区许可证禁止的使用方式。除英语外的其他语言的使用**。
**注意:开发者可以针对英语以外的语言微调 Llama 3 模型,前提是遵守 Llama 3 社区许可证和《可接受使用政策》。
使用方法
待定
责任与安全
我们相信,开放的 AI 方法能带来更好、更安全的产品,更快的创新和更大的整体市场。我们致力于负责任的 AI 开发,并采取了一系列措施来限制滥用和危害,支持开源社区。
基础模型是广泛适用的技术,旨在用于多样化的应用场景。它们并非设计为开箱即用即满足所有开发者对所有用例的安全级别偏好,因为这些偏好本质上会因不同应用而异。
相反,负责任的 LLM 应用部署是通过在开发此类应用时实施一系列安全最佳实践来实现的,从模型预训练、微调到部署由保障措施组成的系统,以根据具体用例和受众量身定制安全需求。
作为 Llama 3 发布的一部分,我们更新了《负责任使用指南》,概述了开发者为应用实现模型和系统级安全的步骤和最佳实践。我们还提供了一系列资源,包括 Meta Llama Guard 2 和 Code Shield 保障措施。这些工具已被证明能大幅降低 LLM 系统的残余风险,同时保持高水平的帮助性。我们鼓励开发者根据自身需求调整和部署这些保障措施,并提供了 参考实现 以帮助您开始。
负责任发布
除了上述负责任使用的考虑外,我们还遵循了一个严格的流程,要求我们在做出发布决定之前采取额外措施防止滥用和关键风险。
滥用
如果您访问或使用 Llama 3,您同意《可接受使用政策》。该政策的最新版本可在 https://llama.meta.com/llama3/use-policy/ 找到。
伦理考虑与限制
Llama 3 的核心价值观是开放、包容和助人为乐。它旨在为所有人服务,适用于广泛的使用场景。因此,它被设计为能让不同背景、经历和观点的人都能访问。Llama 3 尊重用户及其需求,不插入不必要的判断或规范性,同时理解在某些情况下看似有问题的内容在其他情况下可能有其价值。它尊重所有用户的尊严和自主权,尤其是推动创新和进步的自由思想和表达价值观。
但 Llama 3 是一项新技术,与任何新技术一样,其使用存在风险。迄今为止的测试仅限于英语,并未涵盖也不可能涵盖所有场景。因此,与所有 LLM 一样,Llama 3 的潜在输出无法提前预测,在某些情况下可能会对用户提示产生不准确、有偏见或其他令人反感的回应。因此,在部署任何 Llama 3 模型应用之前,开发者应进行针对其具体应用的安全测试和调优。如《负责任使用指南》所述,我们建议将 Purple Llama 解决方案纳入您的工作流程,特别是 Llama Guard,它提供了一个基础模型来过滤输入和输出提示,以在模型级安全之上增加系统级安全。
请参阅《负责任使用指南》,网址为 http://llama.meta.com/responsible-use-guide
基准测试分数
- vllm (pretrained=beomi/Llama-3-Open-Ko-8B,revision=081e85a,tensor_parallel_size=1,dtype=bfloat16,data_parallel_size=2,gpu_memory_utilization=0.8), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: auto
任务 |
版本 |
过滤 |
n-shot |
指标 |
值 |
|
标准误差 |
haerae |
N/A |
无 |
5 |
准确率 |
0.6801 |
± |
0.0138 |
|
|
无 |
5 |
归一化准确率 |
0.6801 |
± |
0.0138 |
- haerae_general_knowledge |
1 |
无 |
5 |
准确率 |
0.4375 |
± |
0.0375 |
|
|
无 |
5 |
归一化准确率 |
0.4375 |
± |
0.0375 |
- haerae_history |
1 |
无 |
5 |
准确率 |
0.7340 |
± |
0.0323 |
|
|
无 |
5 |
归一化准确率 |
0.7340 |
± |
0.0323 |
- haerae_loan_word |
1 |
无 |
5 |
准确率 |
0.7870 |
± |
0.0316 |
|
|
无 |
5 |
归一化准确率 |
0.7870 |
± |
0.0316 |
- haerae_rare_word |
1 |
无 |
5 |
准确率 |
0.7012 |
± |
0.0228 |
|
|
无 |
5 |
归一化准确率 |
0.7012 |
± |
0.0228 |
- haerae_standard_nomenclature |
1 |
无 |
5 |
准确率 |
0.7190 |
± |
0.0365 |
|
|
无 |
5 |
归一化准确率 |
0.7190 |
± |
0.0365 |
kmmlu_direct |
N/A |
无 |
5 |
精确匹配 |
0.4054 |
± |
0.0026 |
- kmmlu_direct_accounting |
2 |
无 |
5 |
精确匹配 |
0.3600 |
± |
0.0482 |
- kmmlu_direct_agricultural_sciences |
2 |
无 |
5 |
精确匹配 |
0.3130 |
± |
0.0147 |
- kmmlu_direct_aviation_engineering_and_maintenance |
2 |
无 |
5 |
精确匹配 |
0.3690 |
± |
0.0153 |
- kmmlu_direct_biology |
2 |
无 |
5 |
精确匹配 |
0.3330 |
± |
0.0149 |
- kmmlu_direct_chemical_engineering |
2 |
无 |
5 |
精确匹配 |
0.4190 |
± |
0.0156 |
- kmmlu_direct_chemistry |
2 |
无 |
5 |
精确匹配 |
0.3833 |
± |
0.0199 |
- kmmlu_direct_civil_engineering |
2 |
无 |
5 |
精确匹配 |
0.3870 |
± |
0.0154 |
- kmmlu_direct_computer_science |
2 |
无 |
5 |
精确匹配 |
0.6340 |
± |
0.0152 |
- kmmlu_direct_construction |
2 |
无 |
5 |
精确匹配 |
0.3340 |
± |
0.0149 |
- kmmlu_direct_criminal_law |
2 |
无 |
5 |
精确匹配 |
0.2850 |
± |
0.0320 |
- kmmlu_direct_ecology |
2 |
无 |
5 |
精确匹配 |
0.4210 |
± |
0.0156 |
- kmmlu_direct_economics |
2 |
无 |
5 |
精确匹配 |
0.4077 |
± |
0.0433 |
- kmmlu_direct_education |
2 |
无 |
5 |
精确匹配 |
0.5000 |
± |
0.0503 |
- kmmlu_direct_electrical_engineering |
2 |
无 |
5 |
精确匹配 |
0.3620 |
± |
0.0152 |
- kmmlu_direct_electronics_engineering |
2 |
无 |
5 |
精确匹配 |
0.4790 |
± |
0.0158 |