模型信息
Llama 3.2多语言大语言模型(LLMs)系列包含1B和3B规模的预训练及指令调优生成模型(文本输入/文本输出)。经过指令调优的纯文本Llama 3.2模型针对多语言对话场景进行了优化,包括代理检索和摘要任务。在常见行业基准测试中,其表现优于多数开源和闭源聊天模型。
模型开发者: Meta
模型架构: Llama 3.2采用优化Transformer架构的自回归语言模型。调优版本通过监督微调(SFT)和人类反馈强化学习(RLHF)实现与人类偏好的一致性。
|
训练数据 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
GQA |
共享嵌入 |
令牌数 |
知识截止 |
Llama 3.2(纯文本) |
公开网络数据新组合 |
1B (1.23B) |
多语言文本 |
多语言文本与代码 |
128k |
是 |
是 |
最高9T令牌 |
2023年12月 |
|
|
3B (3.21B) |
多语言文本 |
多语言文本与代码 |
|
|
|
|
|
Llama 3.2量化版(纯文本) |
公开网络数据新组合 |
1B (1.23B) |
多语言文本 |
多语言文本与代码 |
8k |
是 |
是 |
最高9T令牌 |
2023年12月 |
|
|
3B (3.21B) |
多语言文本 |
多语言文本与代码 |
|
|
|
|
|
支持语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语为官方支持语言。Llama 3.2的训练语言范围超出这8种,开发者可针对其他语言进行微调,但需遵守Llama 3.2社区许可和可接受使用政策。
模型发布日期: 2024年9月25日
状态: 基于离线数据训练的静态模型,未来可能发布改进版本。
许可证: 使用受Llama 3.2社区许可约束。
使用方式
通过Transformers使用
确保安装transformers >= 4.43.0
:
import torch
from transformers import pipeline
model_id = "meta-llama/Llama-3.2-3B-Instruct"
pipe = pipeline("text-generation", model=model_id, torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "system", "content": "你是一个用海盗口吻回答的聊天机器人!"},
{"role": "user", "content": "你是谁?"},
]
outputs = pipe(messages, max_new_tokens=256)
print(outputs[0]["generated_text"][-1])
通过原版Llama代码库使用
参考GitHub仓库说明,下载命令示例:
huggingface-cli download meta-llama/Llama-3.2-3B-Instruct --include "original/*" --local-dir Llama-3.2-3B-Instruct
硬件与训练数据
- 训练能耗: 累计使用91.6万GPU小时(H100-80GB硬件),基于位置的碳排放为240吨CO2当量(市场基准为0吨)。
- 训练数据: 基于9万亿令牌的公开数据,融合了Llama 3.1 8B/70B模型的logits进行知识蒸馏。
量化方案
- 4位分组量化: 线性层权重(组大小32)+ 8位动态激活量化
- QLoRA方法: 结合量化感知训练与低秩适配器
- SpinQuant技术: 配合GPTQ后训练量化,优化移动端部署
基准测试表现
英语能力(3B指令调优模型)
能力 |
基准 |
指标 |
得分 |
通用 |
MMLU |
准确率 |
63.4 |
数学 |
GSM8K |
CoT准确率 |
77.7 |
推理 |
ARC-C |
准确率 |
78.6 |
长上下文 |
多针检索 |
召回率 |
84.7 |
多语言能力(MMLU 5-shot)
语言 |
3B模型准确率 |
西班牙语 |
55.1 |
印地语 |
43.3 |
推理性能(OnePlus 12设备)
模型 |
解码速度 |
首令牌延迟 |
模型大小 |
3B BF16 |
7.6 token/s |
3.0s |
6129MB |
3B SpinQuant |
19.7 token/s (2.6x) |
0.7s |
2435MB |
安全与责任
- 安全策略: 三支柱方案(开发者赋能/对抗防护/社区保护)
- 关键风险管控: 针对CBRNE武器、儿童安全、网络攻击开展专项评估
- 部署建议: 需结合Llama Guard等系统级防护措施
伦理考量
- 核心价值: 开放、包容、助力创新
- 使用限制: 输出可能存在偏差,开发者需针对具体场景进行安全测试
- 资源: 提供责任使用指南和漏洞报告渠道