库名称: transformers
语言:
-
阿拉伯语
-
德语
-
英语
-
西班牙语
-
法语
-
印地语
-
印尼语
-
意大利语
-
葡萄牙语
-
泰语
-
他加禄语
-
越南语
基础模型:
-
meta-llama/Llama-4-Scout-17B-16E
标签:
-
facebook
-
meta
-
pytorch
-
llama
-
llama4
授权协议提示: >-
LLAMA 4社区许可协议
Llama 4版本生效日期:2025年4月5日
"协议"指本文规定的Llama材料使用、复制、分发和修改的条款和条件。
"文档"指Meta在https://www.llama.com/docs/overview发布的Llama 4随附的规范、手册和文档。
"被许可方"或"您"指您、您的雇主或任何其他个人或实体(如果您代表该个人或实体签订本协议),需符合适用法律、法规规定的法定同意年龄,且若您代表雇主或其他个人/实体签订本协议,需具有法律约束力。
"Llama 4"指基础大语言模型及软件算法,包括Meta在https://www.llama.com/llama-downloads发布的机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码等组件。
"Llama材料"统指根据本协议提供的Meta专有Llama 4及文档(或其任何部分)。
"Meta"或"我们"指Meta Platforms爱尔兰有限公司(若您位于欧洲经济区或瑞士,或实体主要营业地在上述地区)和Meta Platforms公司(若您位于上述地区之外)。
点击下方"我接受"或使用/分发任何Llama材料即表示您同意受本协议约束。
-
许可权利与再分发
a. 权利授予。授予您非排他性、全球性、不可转让且免版税的有限许可,允许使用、复制、分发、创建衍生作品和修改Llama材料。
b. 再分发与使用要求:
i. 若分发Llama材料或其衍生作品,或包含它们的AI产品或服务,需:(A)随附本协议;(B)在相关网站/界面显著标注"基于Llama构建";(C)若用于创建AI模型,需以"Llama"作为模型名称前缀。
ii. 若通过集成终端产品获取Llama材料,则协议第2条不适用。
iii. 必须在所有分发副本中包含版权声明:"Llama 4采用Llama 4社区许可协议,版权所有© Meta Platforms公司"。
iv. 使用需遵守适用法律及《可接受使用政策》。
-
商业附加条款:若被许可方月活用户超7亿,需向Meta申请商业许可。
-
免责声明:除非法律要求,Llama材料按"原样"提供,不提供任何明示或默示担保。
-
责任限制:Meta不对因协议产生的间接、特殊、后果性损害承担责任。
-
知识产权:
a. 仅允许为遵守第1.b.i条使用"Llama"商标。
b. 您拥有自主创建的衍生作品所有权。
c. 若对Meta提起知识产权诉讼,则许可自动终止。
-
期限与终止:违约时Meta可终止协议,终止后需删除材料。第3、4、7条在终止后仍有效。
-
管辖法律:受加利福尼亚州法律管辖,排除国际货物销售合同公约适用。
授权表单字段:
名: 文本
姓: 文本
出生日期: 日期选择
国家: 国家选择
所属机构: 文本
职位:
类型: 下拉
选项:
- 学生
- 研究生
- AI研究员
- AI开发工程师
- 记者
- 其他
地理位置: IP定位
勾选框声明: 提交即表示接受许可条款并同意按Meta隐私政策处理信息
授权表单说明: >-
所提供信息将根据Meta隐私政策处理。
提交按钮: 提交
表单标题: "请提供完整法定姓名、出生日期及含公司标识的全称。避免使用缩写和特殊字符。未按要求填写可能导致无法访问本模型及Hugging Face其他模型。提交后不可修改,请确保信息准确。"
许可证类型: 其他
许可证名称: llama4
模型信息
Llama 4系列模型是原生多模态AI模型,支持文本和多模态交互。采用混合专家架构,在文本和图像理解方面具有行业领先性能。
本次发布包含两款高效模型:
- Llama 4 Scout:170亿参数,16专家
- Llama 4 Maverick:170亿参数,128专家
开发者:Meta
架构:基于自回归语言模型,采用混合专家(MoE)架构,支持早期多模态融合。
模型名称 |
训练数据 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
训练token数 |
知识截止 |
Llama 4 Scout |
公开数据、授权数据及Meta产品数据(含Instagram/Facebook公开帖子) |
170亿(激活) 1090亿(总) |
多语言文本+图像 |
多语言文本+代码 |
10M |
~40T |
2024年8月 |
Llama 4 Maverick |
同上 |
170亿(激活) 4000亿(总) |
多语言文本+图像 |
多语言文本+代码 |
1M |
~22T |
2024年8月 |
支持语言:阿拉伯语、英语等12种语言
发布日期:2025年4月5日
状态:基于离线数据的静态模型,后续可能发布优化版本
许可证:Llama 4社区许可协议
反馈渠道:通过Llama README提交,技术文档见Llama食谱
使用场景
适用场景:
- 商业与研究的多语言应用
- 指令微调模型适用于对话助手和视觉推理
- 预训练模型适配自然语言生成
- 视觉能力支持图像识别、推理、描述等
- 支持合成数据生成和模型蒸馏
限制场景:
- 违反法律法规的使用
- 超出12种支持语言的未安全测试应用
- 单次输入超过5张图像的场景需额外测试
Transformers使用示例
需安装transformers v4.51.0:
from transformers import AutoProcessor, Llama4ForConditionalGeneration
硬件与能耗
训练资源:使用Meta自研GPU集群
能耗数据:
- 总训练时长738万GPU小时(H100-80GB)
- 基于位置的碳排放1999吨CO2当量
- 因Meta使用100%可再生能源,市场基准排放为0吨
模型 |
GPU小时 |
单卡功耗(W) |
位置排放(吨) |
市场排放(吨) |
Scout |
500万 |
700 |
1354 |
0 |
Maverick |
238万 |
700 |
645 |
0 |
训练数据
数据构成:
- Scout:约40万亿token多模态数据
- Maverick:约22万亿token
- 来源包括公开数据、授权数据及Meta产品交互数据
- 数据截止2024年8月
基准测试
预训练模型表现
类别 |
基准测试 |
Llama 3.1 70B |
Llama 3.1 405B |
Scout |
Maverick |
推理 |
MMLU |
79.3 |
85.2 |
79.6 |
85.5 |
代码 |
MBPP |
66.4 |
74.4 |
67.8 |
77.6 |
图像 |
DocVQA |
无支持 |
- |
89.4 |
91.6 |
指令微调模型表现
类别 |
测试项 |
Scout |
Maverick |
图像推理 |
MMMU |
69.4 |
73.4 |
编程 |
LiveCodeBench |
32.8 |
43.4 |
长文本 |
全书翻译(chrF) |
39.7 |
50.8 |
量化支持
- Scout:支持BF16及动态int4量化
- Maverick:提供BF16和FP8量化版本
- FP8量化版本可在单台H100 DGX主机运行
安全措施
采用三重防护策略:
-
模型级微调:
- 使用人工标注与合成数据结合
- 优化拒绝响应语气,减少说教感
- 增强系统提示词引导性(示例提示模板见原文)
-
系统级防护:
- 默认集成Llama Guard、Prompt Guard等工具
- 提供参考实现
-
红队测试:
- 定期对抗测试发现风险
- 重点关注CBRNE(生化核爆)、儿童安全、网络安全领域
社区生态
限制声明
Llama 4作为新技术存在潜在风险:
- 输出结果无法完全预测
- 开发者需针对具体应用进行安全测试
- 建议结合开发者指南使用防护工具
- 鼓励开源社区共同研究新兴风险解决方案
(注:表格数据、代码示例等结构化内容已按原格式保留,技术术语保持英文原词)