模型简介
模型特点
模型能力
使用案例
语言:
-
英语
-
德语
-
法语
-
意大利语
-
葡萄牙语
-
印地语
-
西班牙语
-
泰语 管道标签: 文本生成 标签:
-
Facebook
-
Meta
-
PyTorch
-
Llama
-
Llama-3 许可证: llama3.2 基础模型:
-
meta-llama/Llama-3.2-3B 额外授权提示: >-
LLAMA 3.2 社区许可协议
Llama 3.2版本发布日期: 2024年9月25日
“协议”指此处规定的关于Llama材料使用、复制、分发和修改的条款和条件。
“文档”指Meta在https://llama.meta.com/doc/overview发布的Llama 3.2的规格说明、手册和文档。
“被许可方”或“您”指您、您的雇主或任何其他个人或实体(如果您代表该个人或实体签订本协议),且根据适用法律、规则或法规已达到提供法律同意的年龄,并有法律权限约束您的雇主或该其他个人或实体(如果您代表他们签订本协议)。
“Llama 3.2”指基础大型语言模型及软件和算法,包括机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码及其他由Meta在https://www.llama.com/llama-downloads发布的上述元素。
“Llama材料”指Meta专有的Llama 3.2和文档(及其任何部分)在本协议下提供的集合。
“Meta”或“我们”指Meta Platforms Ireland Limited(如果您位于欧洲经济区或瑞士,或作为实体,您的主要营业地位于欧洲经济区或瑞士)和Meta Platforms, Inc.(如果您位于欧洲经济区或瑞士以外)。
点击下方的“我接受”或使用或分发Llama材料的任何部分或元素,即表示您同意受本协议约束。
- 许可权利和再分发。
a. 权利授予。您被授予一项非排他性、全球性、不可转让且免版税的有限许可,以使用、复制、分发、复制、创建衍生作品并对Llama材料进行修改,该许可基于Meta在Llama材料中体现的知识产权或其他权利。
b. 再分发和使用。
i. 如果您分发或提供Llama材料(或其任何衍生作品),或包含其中任何部分的产品或服务(包括其他AI模型),您应(A)随Llama材料提供本协议的副本;(B)在相关网站、用户界面、博客文章、关于页面或产品文档中显著显示“基于Llama构建”。如果您使用Llama材料或其任何输出或结果来创建、训练、微调或以其他方式改进AI模型,并将其分发或提供,您还应在任何此类AI模型名称的开头包含“Llama”。
ii. 如果您从被许可方处接收Llama材料或其任何衍生作品作为集成终端用户产品的一部分,则本协议第2节不适用于您。
iii. 您必须在分发的所有Llama材料副本中保留以下归属声明,作为此类副本的一部分在“通知”文本文件中分发:“Llama 3.2根据Llama 3.2社区许可协议授权,版权所有© Meta Platforms, Inc. 保留所有权利。”
iv. 您对Llama材料的使用必须遵守适用法律法规(包括贸易合规法律法规),并遵守Llama材料的可接受使用政策(可在https://www.llama.com/llama3_2/use-policy查阅),该政策通过引用并入本协议。
-
附加商业条款。如果在Llama 3.2版本发布日期,由被许可方或其关联公司提供的产品或服务的月活跃用户在前一个日历月超过7亿月活跃用户,您必须向Meta申请许可,Meta可自行决定是否授予您许可,除非Meta明确授予您此类权利,否则您无权行使本协议下的任何权利。
-
免责声明。除非适用法律要求,Llama材料及其任何输出和结果均按“原样”提供,不提供任何形式的保证,Meta否认所有明示或默示的保证,包括但不限于所有权、不侵权、适销性或特定用途适用性的保证。您全权负责确定使用或再分发Llama材料的适当性,并承担与使用Llama材料及其任何输出和结果相关的任何风险。
-
责任限制。在任何情况下,Meta或其关联公司均不对因本协议引起的任何理论上的责任(无论是合同、侵权、疏忽、产品责任或其他)负责,包括任何利润损失或任何间接、特殊、附带、惩戒性或惩罚性损害赔偿,即使Meta或其关联公司已被告知此类损害的可能性。
-
知识产权。
a. 本协议未授予任何商标许可,在与Llama材料相关的活动中,Meta和被许可方均不得使用对方或其关联公司拥有或关联的任何名称或标记,除非为合理和惯常使用以描述和再分发Llama材料或如第5(a)节所述。Meta特此授予您使用“Llama”(“标记”)的许可,仅用于遵守第1.b.i节最后一句话的要求。您将遵守Meta的品牌指南(当前可在https://about.meta.com/brand/resources/meta/company-brand/查阅)。您使用标记所产生的所有商誉将归属于Meta。
b. 在Meta对Llama材料及Meta制作或为其制作的衍生作品的所有权前提下,对于您制作的Llama材料的任何衍生作品和修改,在您和Meta之间,您是并将是此类衍生作品和修改的所有者。
c. 如果您对Meta或任何实体提起诉讼或其他程序(包括诉讼中的交叉索赔或反诉),指控Llama材料或Llama 3.2的输出或结果或其任何部分构成对您拥有或可许可的知识产权或其他权利的侵权,则本协议授予您的任何许可应自该诉讼或索赔提交或提起之日起终止。您将赔偿并使Meta免受因您使用或分发Llama材料而引起的任何第三方索赔的损害。
-
期限和终止。本协议的期限自您接受本协议或访问Llama材料之日起开始,并将持续有效直至根据本协议的条款和条件终止。Meta可在您违反本协议的任何条款或条件时终止本协议。本协议终止后,您应删除并停止使用Llama材料。第3、4和7节在本协议终止后仍然有效。
-
适用法律和管辖权。本协议将根据加利福尼亚州法律解释和管辖,不考虑法律冲突原则,且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州法院对本协议引起的任何争议拥有专属管辖权。
Llama 3.2 可接受使用政策
Meta致力于促进其工具和功能的安全和公平使用,包括Llama 3.2。 如果您访问或使用Llama 3.2,您同意本可接受使用政策(“政策”)。 本政策的最新版本可在 https://www.llama.com/llama3_2/use-policy查阅。
禁止用途
我们希望每个人都安全且负责任地使用Llama 3.2。您同意不会使用或允许他人使用Llama 3.2进行以下行为:
- 违反法律或他人权利,包括:
- 从事、促进、生成、促成、鼓励、计划、煽动或进一步非法或违法活动或内容,例如:
- 暴力或恐怖主义
- 对儿童的剥削或伤害,包括招揽、创建、获取或传播儿童剥削内容或未报告儿童性虐待材料
- 人口贩卖、剥削和性暴力
- 向未成年人非法分发信息或材料,包括淫秽材料,或未对此类信息或材料采用法律要求的年龄限制。
- 性招揽
- 任何其他犯罪活动
- 从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌
- 从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济利益或其他基本商品和服务提供中的歧视或其他非法或有害行为
- 从事未经授权或无执照的任何职业实践,包括但不限于金融、法律、医疗/健康或相关专业实践
- 收集、处理、披露、生成或推断个人的私人或敏感信息,包括个人身份、健康或人口统计信息,除非您已根据适用法律获得这样做的权利
- 从事或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为或生成任何内容,包括使用Llama材料的任何产品或服务的输出或结果
- 创建、生成或便利创建恶意代码、恶意软件、计算机病毒或任何可能禁用、过载、干扰或损害网站或计算机系统正常运行、完整性、操作或外观的行为
- 从事任何行为,或便利任何行为,以故意规避或移除使用限制或其他安全措施,或启用被Meta禁用的功能
- 从事、促进、生成、促成、鼓励、计划、煽动或进一步非法或违法活动或内容,例如:
- 从事、促进、煽动、便利或协助计划或开发可能导致个人死亡或身体伤害的活动,包括与以下内容相关的Llama 3.2使用: 8. 军事、战争、核工业或应用、间谍活动,用于受美国国务院《国际武器贸易条例》(ITAR)或《1989年美国生物武器反恐法案》或《1997年化学武器公约实施法案》管制的材料或活动 9. 枪支和非法武器(包括武器开发) 10. 非法药物和受管制物质 11. 关键基础设施、交通技术或重型机械的操作 12. 自残或伤害他人,包括自杀、自残和饮食失调 13. 任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容
- 故意欺骗或误导他人,包括与以下内容相关的Llama 3.2使用: 14. 生成、促进或进一步欺诈或虚假信息的创建或推广 15. 生成、促进或进一步诽谤性内容,包括诽谤性陈述、图像或其他内容的创建 16. 生成、促进或进一步分发垃圾邮件 17. 未经同意、授权或法律权利冒充他人 18. 表示Llama 3.2或其输出是人工生成的 19. 生成或便利虚假在线互动,包括虚假评论和其他虚假在线互动手段
- 未向终端用户适当披露您的AI系统的任何已知危险
- 与设计用于生成非法内容或从事非法或有害行为的第三方工具、模型或软件交互,和/或表示此类工具、模型或软件的输出与Meta或Llama 3.2相关联
对于Llama 3.2中包含的任何多模态模型,如果您是居住在欧盟的个人或在欧盟设有主要营业地的公司,则Llama 3.2社区许可协议第1(a)节授予的权利不适用于您。此限制不适用于包含任何此类多模态模型的产品或服务的终端用户。
请通过以下方式之一报告违反本政策的行为、软件“错误”或其他可能导致违反本政策的问题:
-
报告模型生成的风险内容:developers.facebook.com/llama_output_feedback
-
报告错误和安全问题:facebook.com/whitehat/info
-
报告违反可接受使用政策或无许可使用Llama 3.2的行为:LlamaUseReport@meta.com 额外授权字段: 名字: 文本 姓氏: 文本 出生日期: 日期选择器 国家: 国家 所属机构: 文本 职位: 类型: 选择 选项:
- 学生
- 研究生
- AI研究员
- AI开发人员/工程师
- 记者
- 其他 地理位置: IP定位 点击下方的提交按钮即表示我接受许可条款,并确认我提供的信息将根据Meta隐私政策被收集、存储、处理和共享: 复选框 额外授权描述: >- 您提供的信息将根据Meta隐私政策被收集、存储、处理和共享。 额外授权按钮内容: 提交
模型信息
Llama 3.2多语言大语言模型(LLMs)集合是1B和3B大小的预训练和指令调优生成模型(文本输入/文本输出)。Llama 3.2指令调优的纯文本模型针对多语言对话用例进行了优化,包括代理检索和摘要任务。它们在常见行业基准测试中优于许多可用的开源和闭源聊天模型。
模型开发者: Meta
模型架构: Llama 3.2是一种自回归语言模型,使用优化的Transformer架构。调优版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来与人类对帮助性和安全性的偏好对齐。
训练数据 | 参数 | 输入模态 | 输出模态 | 上下文长度 | GQA | 共享嵌入 | 令牌计数 | 知识截止 | |
---|---|---|---|---|---|---|---|---|---|
Llama 3.2(纯文本) | 新的公开在线数据混合 | 1B (1.23B) | 多语言文本 | 多语言文本和代码 | 128k | 是 | 是 | 高达9T令牌 | 2023年12月 |
3B (3.21B) | 多语言文本 | 多语言文本和代码 | |||||||
Llama 3.2量化(纯文本) | 新的公开在线数据混合 | 1B (1.23B) | 多语言文本 | 多语言文本和代码 | 8k | 是 | 是 | 高达9T令牌 | 2023年12月 |
3B (3.21B) | 多语言文本 | 多语言文本和代码 |
支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语是官方支持的语言。Llama 3.2的训练语言范围比这8种支持的语言更广泛。开发者可以针对这些支持语言之外的语言微调Llama 3.2模型,前提是他们遵守Llama 3.2社区许可和可接受使用政策。开发者始终应确保他们的部署(包括涉及其他语言的部署)是安全且负责任地完成的。
Llama 3.2模型家族: 令牌计数仅指预训练数据。所有模型版本均使用分组查询注意力(GQA)以提高推理可扩展性。
模型发布日期: 2024年10月24日
状态: 这是一个基于离线数据集训练的静态模型。未来可能会发布改进模型能力和安全性的版本。
许可证: Llama 3.2的使用受Llama 3.2社区许可(一种定制的商业许可协议)管辖。
反馈: 关于如何提供模型反馈或评论的说明可在Llama Models README中找到。有关生成参数的技术信息以及如何在应用程序中使用Llama 3.2的配方,请访问此处。
预期用途
预期用例: Llama 3.2旨在用于多语言的商业和研究用途。指令调优的纯文本模型适用于类似助手的聊天和代理应用,如知识检索和摘要、移动AI驱动的写作助手以及查询和提示重写。预训练模型可适应各种额外的自然语言生成任务。同样,量化模型可适应计算资源有限的设备上的各种用例。
超出范围: 以任何方式违反适用法律法规(包括贸易合规法规)的使用。以其他方式被可接受使用政策和Llama 3.2社区许可禁止的使用。使用超出本模型卡中明确提及的支持语言的语言。
硬件和软件
训练因素: 我们使用自定义训练库、Meta自建的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。
训练能源使用: 训练在H100-80GB(TDP为700W)类型硬件上累计使用了916k GPU小时的计算,如下表所示。训练时间是训练每个模型所需的总GPU时间,功耗是每个GPU设备的峰值功率容量,根据电源使用效率进行调整。
训练温室气体排放: 基于位置的温室气体排放估计总量为240吨CO2eq。自2020年以来,Meta在其全球运营中保持了净零温室气体排放,并100%匹配其电力使用与可再生能源;因此,训练的总市场温室气体排放为0吨CO2eq。
训练时间(GPU小时) | 逻辑生成时间(GPU小时) | 训练功耗(W) | 训练基于位置的温室气体排放(吨CO2eq) | 训练基于市场的温室气体排放(吨CO2eq) | |
---|---|---|---|---|---|
Llama 3.2 1B | 370k | - | 700 | 107 | 0 |
Llama 3.2 3B | 460k | - | 700 | 133 | 0 |
Llama 3.2 1B SpinQuant | 1.7 | 0 | 700 | 可忽略** | 0 |
Llama 3.2 3B SpinQuant | 2.4 | 0 | 700 | 可忽略** | 0 |
Llama 3.2 1B QLora | 1.3k | 0 | 700 | 0.381 | 0 |
Llama 3.2 3B QLora | 1.6k | 0 | 700 | 0.461 | 0 |
总计 | 833k | 86k | 240 | 0 |
** Llama 3.2 1B SpinQuant和Llama 3.2 3B SpinQuant的基于位置的CO2e排放均小于0.001公吨。这是由于所需的训练GPU小时极少。
用于确定训练能源使用和温室气体排放的方法可在此处找到。由于Meta公开了这些模型,其他人不会产生训练能源使用和温室气体排放。
训练数据
概述: Llama 3.2在高达9万亿令牌的公开可用数据上进行了预训练。对于1B和3B Llama 3.2模型,我们在模型开发的预训练阶段纳入了Llama 3.1 8B和70B模型的逻辑,其中这些较大模型的输出(逻辑)被用作令牌级目标。剪枝后使用知识蒸馏恢复性能。在后训练中,我们使用了与Llama 3.1类似的配方,并通过在预训练模型上进行多轮对齐生成最终的聊天模型。每轮涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。
数据新鲜度: 预训练数据的截止日期为2023年12月。
量化
量化方案
我们设计了当前的量化方案,考虑到PyTorch的ExecuTorch推理框架和Arm CPU后端,并考虑了模型质量、预填充/解码速度和内存占用等指标。我们的量化方案包括三个部分:
- 所有Transformer块中的所有线性层均量化为4位分组方案(组大小为32)用于权重,8位每令牌动态量化用于激活。
- 分类层量化为8位每通道用于权重,8位每令牌动态量化用于激活。
- 类似于分类层,嵌入层使用8位每通道量化。
量化感知训练和LoRA
量化感知训练(QAT)与低秩适应(LoRA)模型仅经过后训练阶段,使用与全精度模型相同的数据。为了初始化QAT,我们利用监督微调(SFT)后获得的BF16 Llama 3.2模型检查点,并使用QAT进行额外的完整轮次SFT训练。然后我们冻结QAT模型的骨干,并对Transformer块内的所有层应用LoRA适配器进行另一轮SFT。同时,LoRA适配器的权重和激活保持在BF16。由于我们的方法类似于Dettmers等人(2023)的QLoRA(即量化后接LoRA适配器),我们将此方法称为QLoRA。最后,我们使用直接偏好优化(DPO)微调生成的模型(包括骨干和LoRA适配器)。
SpinQuant
应用了SpinQuant和生成式后训练量化(GPTQ)。对于SpinQuant旋转矩阵微调,我们优化了100次迭代,使用来自WikiText 2数据集的800个样本,序列长度为2048。对于GPTQ,我们使用了来自同一数据集的128个样本,序列长度相同。
基准测试 - 英语文本
在本节中,我们报告了Llama 3.2模型在标准自动基准测试中的结果。对于所有这些评估,我们使用了内部评估库。
基础预训练模型
类别 | 基准测试 | # 样本 | 指标 | Llama 3.2 1B | Llama 3.2 3B | Llama 3.1 8B |
---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc_char | 32.2 | 58 | 66.7 |
AGIEval 英语 | 3-5 | average/acc_char | 23.3 | 39.2 | 47.8 | |
ARC-Challenge | 25 | acc_char | 32.8 | 69.1 | 79.7 | |
阅读理解 | SQuAD | 1 | em | 49.2 | 67.7 | 77 |
QuAC (F1) | 1 | f1 | 37.9 | 42.9 | 44.9 | |
DROP (F1) | 3 | f1 | 28.0 | 45.2 | 59.5 | |
长上下文 | Needle in Haystack | 0 | em | 96.8 | 1 | 1 |
指令调优模型
能力 | 基准测试 | # 样本 | 指标 | Llama 3.2 1B bf16 | Llama 3.2 1B 普通PTQ** | Llama 3.2 1B Spin Quant | Llama 3.2 1B QLoRA | Llama 3.2 3B bf16 | Llama 3.2 3B 普通PTQ** | Llama 3.2 3B Spin Quant | Llama 3.2 3B QLoRA | Llama 3.1 8B | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc | 49.3 | 43.3 | 47.3 | 49.0 | 63.4 | 60.5 | 62 | 62.4 | 69.4 | |
重写 | Open-rewrite eval | 0 | micro_avg/rougeL | 41.6 | 39.2 | 40.9 | 41.2 | 40.1 | 40.3 | 40.8 | 40.7 | 40.9 | |
摘要 | TLDR9+ (测试) | 1 | rougeL | 16.8 | 14.9 | 16.7 | 16.8 | 19.0 | 19.1 | 19.2 | 19.1 | 17.2 | |
指令遵循 | IFEval | 0 | Avg(Prompt/Instruction acc Loose/Strict) | 59.5 | 51.5 | 58.4 | 55.6 | 77.4 | 73.9 | 73.5 | 75.9 | 80.4 | |
数学 | GSM8K (CoT) | 8 | em_maj1@1 | 44.4 | 33.1 | 40.6 | 46.5 | 77.7 | 72.9 | 75.7 | 77.9 | 84.5 | |
MATH (CoT) | 0 | final_em | 30.6 | 20.5 | 25.3 | 31.0 | 48.0 | 44.2 | 45.3 | 49.2 | 51.9 | ||
推理 | ARC-C | 0 | acc | 59.4 | 54.3 | 57 | 60.7 | 78.6 | 75.6 | 77.6 | 77.6 | 83.4 | |
GPQA | 0 | acc | 27.2 | 25.9 | 26.3 | 25.9 | 32.8 | 32.8 | 31.7 | 33.9 | 32.8 | ||
Hellaswag | 0 | acc | 41.2 | 38.1 | 41.3 | 41.5 | 69.8 | 66.3 | 68 | 66.3 | 78.7 | ||
工具使用 | BFCL V2 | 0 | acc | 25.7 | 14.3 | 15.9 | 23.7 | 67.0 | 53.4 | 60.1 | 63.5 | 67.1 | |
Nexus | 0 | macro_avg/acc | 13.5 | 5.2 | 9.6 | 12.5 | 34.3 | 32.4 | 31.5 | 30.1 | 38.5 | ||
长上下文 | InfiniteBench/En.QA | 0 | longbook_qa/f1 | 20.3 | N/A | N/A | N/A | 19.8 | N/A | N/A | N/A | 27.3 | |
InfiniteBench/En.MC | 0 | longbook_choice/acc | 38.0 | N/A | N/A | N/A | 63.3 | N/A | N/A | N/A | 72.2 | ||
NIH/Multi-needle | 0 | recall | 75.0 | N/A | N/A | N/A | 84.7 | N/A | N/A | N/A | 98.8 | ||
多语言 | MGSM (CoT) | 0 | em | 24.5 | 13.7 | 18.2 | 24.4 | 58.2 | 48.9 | 54.3 | 56.8 | 68.9 |
**仅用于比较目的。模型未发布。
多语言基准测试
类别 | 基准测试 | 语言 | Llama 3.2 1B | Llama 3.2 1B 普通PTQ** | Llama 3.2 1B Spin Quant | Llama 3.2 1B QLoRA | Llama 3.2 3B | Llama 3.2 3B 普通PTQ** | Llama 3.2 3B Spin Quant | Llama 3.2 3B QLoRA | Llama 3.1 8B |
---|---|---|---|---|---|---|---|---|---|---|---|
通用 | MMLU (5样本, macro_avg/acc) | 葡萄牙语 | 39.8 | 34.9 | 38.9 | 40.2 | 54.5 | 50.9 | 53.3 | 53.4 | 62.1 |
西班牙语 | 41.5 | 36.0 | 39.8 | 41.8 | 55.1 | 51.9 | 53.6 | 53.6 | 62.5 | ||
意大利语 | 39.8 | 34.9 | 38.1 | 40.6 | 53.8 | 49.9 | 52.1 | 51.7 | 61.6 | ||
德语 | 39.2 | 34.9 | 37.5 | 39.6 | 53.3 | 50.0 | 52.2 | 51.3 | 60.6 | ||
法语 | 40.5 | 34.8 | 39.2 | 40.8 | 54.6 | 51.2 | 53.3 | 53.3 | 62.3 | ||
印地语 | 33.5 | 30.0 | 32.1 | 34.0 | 43.3 | 40.4 | 42.0 | 42.1 | 50.9 | ||
泰语 | 34.7 | 31.2 | 32.4 | 34.9 | 44.5 | 41.3 | 44.0 | 42.2 | 50.3 |
**仅用于比较目的。模型未发布。
推理时间
在下表中,我们比较了不同量化方法(SpinQuant和QAT + LoRA)与BF16基线的性能指标。评估使用ExecuTorch框架作为推理引擎,以ARM CPU为后端,使用Android OnePlus 12设备。
类别 | 解码(令牌/秒) | 首次令牌时间(秒) | 预填充(令牌/秒) | 模型大小(PTE文件大小,MB) | 内存大小(RSS,MB) |
---|---|---|---|---|---|
1B BF16 (基线) | 19.2 | 1.0 | 60.3 | 2358 | 3,185 |
1B SpinQuant | 50.2 (2.6倍) | 0.3 (-76.9%) | 260.5 (4.3倍) | 1083 (-54.1%) | 1,921 (-39.7%) |
1B QLoRA | 45.8 (2.4倍) | 0.3 (-76.0%) | 252.0 (4.2倍) | 1127 (-52.2%) | 2,255 (-29.2%) |
3B BF16 (基线) | 7.6 | 3.0 | 21.2 | 6129 | 7,419 |
3B SpinQuant | 19.7 (2.6倍) | 0.7 (-76.4%) | 89.7 (4.2倍) | 2435 (-60.3%) | 3,726 (-49.8%) |
3B QLoRA | 18.5 (2.4倍) | 0.7 (-76.1%) | 88.8 (4.2倍) | 2529 (-58.7%) | 4,060 (-45.3%) |
(*) 性能测量使用基于adb二进制的方法完成。 (**) 在Android OnePlus 12设备上测量。 (***) 首次令牌时间(TTFT)以提示长度=64测量。
脚注:
- 解码(令牌/秒)表示持续生成的速度。越高越好。
- 首次令牌时间(TTFT缩写)表示生成第一个令牌的速度。越低越好。
- 预填充是TTFT的倒数(即1/TTFT),以令牌/秒表示。越高越好。
- 模型大小 - 模型的大小,以ExecuTorch的二进制文件格式PTE文件衡量。
- RSS大小 - 内存使用量,以驻留集大小(RSS)衡量。
责任与安全
作为我们负责任发布方法的一部分,我们遵循了三管齐下的策略来管理信任与安全风险:
- 使开发者能够为目标受众和Llama支持的用例部署有帮助、安全且灵活的体验。
- 保护开发者免受旨在利用Llama能力造成潜在伤害的对抗性用户的侵害。
- 为社区提供保护,帮助防止滥用我们的模型。
负责任部署
方法: Llama是一种基础技术,设计用于各种用例。关于Meta的Llama模型如何负责任部署的示例可在我们的社区故事网页找到。我们的方法是构建最有帮助的模型,使世界受益于技术力量,通过对通用用例的模型安全对齐和解决一组标准危害。然后,开发者处于主导地位,为其用例定制安全性,定义自己的政策,并在其Llama系统中部署必要的保障措施。Llama 3.2的开发遵循了我们的负责任使用指南中概述的最佳实践。
Llama 3.2 Instruct
目标: 我们进行安全微调的主要目标是为研究社区提供一个有价值的资源,用于研究安全微调的鲁棒性,并为开发者提供一个现成的、安全和强大的模型,用于各种应用,以减少开发者部署安全AI系统的工作量。我们实施了与Llama 3相同的安全缓解措施,您可以在Llama 3论文中了解更多关于这些措施的信息。
微调数据: 我们采用多方面的数据收集方法,结合来自供应商的人类生成数据和合成数据,以减轻潜在的安全风险。我们开发了许多基于大型语言模型(LLM)的分类器,使我们能够精心选择高质量的提示和响应,增强数据质量控制。
拒绝和语气: 基于我们在Llama 3中开始的工作,我们非常重视模型对良性提示的拒绝以及拒绝语气。我们在安全数据策略中包括了边界和对抗性提示,并修改了安全数据响应以遵循语气指南。
Llama 3.2系统
安全作为系统: 大型语言模型,包括Llama 3.2,并非设计为孤立部署,而应作为具有额外安全护栏的整体AI系统的一部分部署。开发者在构建代理系统时应部署系统保障措施。保障措施是实现正确的帮助性-安全性对齐以及减轻系统和任何模型或系统与外部工具集成的固有安全和安全风险的关键。作为我们负责任发布方法的一部分,我们为社区提供了保障措施,开发者应与Llama模型或其他LLMs一起部署,包括Llama Guard、Prompt Guard和Code Shield。我们所有的参考实现演示默认包含这些保障措施,因此开发者可以开箱即用地受益于系统级安全性。
新能力和用例
技术进步: Llama发布通常引入需要特定考虑的新能力,除了通常适用于所有生成AI用例的最佳实践。对于Llama 3.2也支持的先前发布能力,请参阅Llama 3.1模型卡,因为此处也适用相同的考虑。
受限环境: Llama 3.2 1B和3B模型预计将在高度受限的环境中部署,例如移动设备


