library_name: transformers
language:
-
阿拉伯语
-
德语
-
英语
-
西班牙语
-
法语
-
印地语
-
印尼语
-
意大利语
-
葡萄牙语
-
泰语
-
他加禄语
-
越南语
base_model:
-
meta-llama/Llama-4-Scout-17B-16E
tags:
-
脸书
-
Meta
-
PyTorch
-
LLaMA
-
LLaMA4
extra_gated_prompt: >-
LLAMA 4社区许可协议
Llama 4版本生效日期:2025年4月5日
"协议"指本文规定的关于Llama材料使用、复制、分发和修改的条款和条件。
"文档"指Meta在https://www.llama.com/docs/overview发布的Llama 4配套规范、手册和文档。
"被许可方"或"您"指您本人,或您的雇主或其他个人/实体(若您代表该方签署本协议),且需达到适用法律规定的法定年龄并具有合法授权。
"Llama 4"指Meta在https://www.llama.com/llama-downloads发布的基础大语言模型及相关软件算法,包括机器学习模型代码、训练权重、推理代码等。
"Llama材料"统指根据本协议提供的Meta专有Llama 4及文档。
"Meta"或"我们"指Meta Platforms爱尔兰有限公司(适用于欧洲经济区或瑞士用户)或Meta Platforms公司(其他地区用户)。
点击下方"我接受"或使用/分发Llama材料即表示您同意受本协议约束。
-
许可权利与再分发
a. 权利授予:授予您非独占、全球性、不可转让、免版税的有限许可,允许使用、复制、分发Llama材料及创建衍生作品。
b. 再分发要求:
i. 分发时须附带本协议,并在显著位置标注"基于Llama构建";
ii. 终端产品用户不适用第2条;
iii. 须保留版权声明;
iv. 使用需符合法律法规及可接受使用政策。
-
商业条款:若月活跃用户超7亿,需向Meta申请额外许可。
-
免责声明:除非法律要求,Llama材料按"原样"提供,不附带任何明示或默示担保。
-
责任限制:Meta不对任何间接、特殊、附带或惩罚性损害承担责任。
-
知识产权:
a. 商标使用需符合品牌规范;
b. 衍生作品所有权归开发者;
c. 提起侵权诉讼将导致许可终止。
-
期限与终止:违约时Meta可终止协议,终止后须停止使用。
-
法律管辖:受加利福尼亚州法律管辖,排除联合国国际货物销售合同公约适用。
extra_gated_fields:
名: text
姓: text
出生日期: date_picker
国家: country
所属机构: text
职位:
type: select
options:
- 学生
- 研究生
- AI研究员
- AI开发工程师
- 记者
- 其他
geo: ip_location
勾选即表示接受许可条款并同意根据Meta隐私政策处理信息: checkbox
extra_gated_description: >-
所提供信息将依据Meta隐私政策进行收集、存储和处理。
extra_gated_button_content: 提交
extra_gated_heading: "请务必提供完整法定姓名、出生日期及含公司标识的全称机构名。避免使用缩写和特殊字符。未按要求填写可能导致无法访问本模型及Hugging Face其他资源。提交后不可修改,请确保信息准确。"
license: other
license_name: llama4
模型信息
Llama 4系列模型是原生多模态AI模型,支持文本和多模态体验。采用混合专家架构,在文本和图像理解方面具有行业领先性能。
作为Llama生态系统新时代的开端,我们推出两款高效模型:17B参数/16专家的Llama 4 Scout和17B参数/128专家的Llama 4 Maverick。
开发方:Meta
架构:采用混合专家(MoE)架构的自回归语言模型,支持早期多模态融合。
模型名称 |
训练数据 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
token数量 |
知识截止 |
Llama 4 Scout (17Bx16E) |
公开数据、授权数据及Meta产品数据(含Instagram/Facebook公开帖文及用户与Meta AI的互动) |
激活17B 总计109B |
多语文本+图像 |
多语文本+代码 |
10M |
~40T |
2024年8月 |
Llama 4 Maverick (17Bx128E) |
激活17B 总计400B |
多语文本+图像 |
多语文本+代码 |
1M |
~22T |
2024年8月 |
支持语言:阿拉伯语、英语、法语等12种语言
发布日期:2025年4月5日
状态:基于离线数据的静态模型,后续可能发布优化版本
许可证:自定义商业许可Llama 4社区协议
技术文档:参见GitHub
使用场景
适用场景:
- 商业/研究用途的多语言应用
- 指令调优模型适用于对话助手和视觉推理
- 预训练模型适配自然语言生成
- 视觉能力支持图像识别、推理、描述等
- 支持合成数据生成和模型蒸馏
限制场景:
- 违反法律法规的使用
- 超出12种支持语言的未授权应用
- 超过5张图像的视觉理解需求
注:
- 实际支持200种语言预训练,开发者可针对更多语言微调但需自负安全责任
- 图像理解默认测试上限为5张,超出需额外风险评估
Transformers使用示例
需安装transformers v4.51.0:
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://example.com/rabbit.jpg"
url2 = "https://example.com/cat_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "描述这两张图像的异同"},
]
},
]
硬件与能耗
训练资源:
- 使用定制训练库和Meta GPU集群
- 预训练累计消耗738万GPU小时(H100-80GB)
- 基于位置的碳排放1999吨CO2当量
- 因Meta使用100%可再生能源,市场基准排放为0
模型 |
GPU小时 |
单卡功耗(W) |
位置排放(吨) |
市场排放(吨) |
Scout |
500万 |
700 |
1354 |
0 |
Maverick |
238万 |
700 |
645 |
0 |
基准测试
预训练模型表现
类别 |
基准 |
Llama 3.1 70B |
Llama 4 Scout |
推理 |
MMLU |
79.3 |
79.6 |
代码 |
MBPP |
66.4 |
67.8 |
多语言 |
TydiQA |
29.9 |
31.5 |
图像 |
DocVQA |
- |
89.4 |
指令调优模型表现
类别 |
基准 |
Scout |
Maverick |
图像推理 |
MMMU |
69.4 |
73.4 |
编程 |
LiveCodeBench |
32.8 |
43.4 |
长文本 |
书籍翻译(chrF) |
42.2/36.6 |
54.0/46.4 |
安全措施
采用三重防护策略:
-
模型级调优:
- 结合人工标注与合成数据
- 优化拒绝响应机制,减少误拒
- 改进语气自然度,避免说教式表达
-
系统级防护:
- 提供Llama Guard、Prompt Guard等工具
- 参考实现默认集成防护措施
-
红队测试:
- 定期进行对抗性测试
- 重点关注CBRNE(生化核爆)、儿童安全、网络安全等关键风险领域
注意事项
-
技术局限:
-
部署建议:
-
社区资源:
本技术秉持表达自由价值观,旨在服务多元化需求。开发者应充分认识风险,根据具体应用场景实施适当安全措施。