库名称:transformers
支持语言:
-
阿拉伯语
-
德语
-
英语
-
西班牙语
-
法语
-
印地语
-
印尼语
-
意大利语
-
葡萄牙语
-
泰语
-
他加禄语
-
越南语
基础模型:
-
meta-llama/Llama-4-Scout-17B-16E
标签:
-
facebook
-
meta
-
pytorch
-
llama
-
llama-4
访问授权提示:>-
LLAMA 4社区许可协议
Llama 4版本生效日期:2025年4月5日
"协议"指本文规定的Llama材料使用、复制、分发和修改的条款和条件。
"文档"指Meta在https://www.llama.com/docs/overview发布的Llama 4配套规范、手册和文档。
"被许可方"或"您"指您、您的雇主或任何其他个人或实体(若您代表该个人或实体签署本协议),且需达到适用法律、法规规定的法定同意年龄,若代表雇主或其他实体签署则需具备法律约束力。
"Llama 4"指基础大语言模型及软件算法,包括Meta在https://www.llama.com/llama-downloads发布的机器学习模型代码、训练模型权重、推理代码、训练代码、微调代码等组件。
"Llama材料"统指本协议下提供的Meta专有Llama 4及文档(或其任何部分)。
"Meta"或"我们"指Meta Platforms爱尔兰有限公司(若您位于欧洲经济区或瑞士)或Meta Platforms公司(若您位于其他地区)。
点击下方"我接受"或使用/分发Llama材料即表示您同意受本协议约束。
- 许可权利与再分发
a. 权利授予。您获得非独占、全球性、不可转让且免版税的有限许可,可使用、复制、分发Llama材料,并创建其衍生作品。
b. 再分发要求:
i. 若分发Llama材料或其衍生作品,需:(A)随附本协议;(B)在相关平台显著标注"基于Llama构建"。若用于训练AI模型,须在模型名称前添加"Llama"。
ii. 若通过被许可方获得集成产品,则协议第2条不适用。
iii. 须在所有分发副本中保留版权声明:"Llama 4采用Llama 4社区许可,版权所有© Meta Platforms公司"。
iv. 使用需符合适用法律及《可接受使用政策》(https://www.llama.com/llama4/use-policy)。
-
商业条款:若月活用户超7亿,须向Meta申请商业许可。
-
免责声明:除非法律要求,Llama材料按"原样"提供,不提供任何明示或默示担保。
-
责任限制:Meta不对任何间接损失或惩罚性赔偿承担责任。
-
知识产权:
a. 仅允许为合规使用"Llama"商标。
b. 您拥有自创衍生作品的所有权。
c. 若对Meta提起知识产权诉讼,许可自动终止。
-
期限与终止:违约时Meta可终止协议,终止后须停止使用Llama材料。
-
适用法律:受加利福尼亚州法律管辖,排除《联合国国际货物销售合同公约》。
授权表单字段:
名:文本
姓:文本
出生日期:日期选择
国家:国家选择
所属机构:文本
职位:
类型:下拉
选项:
- 学生
- 研究生
- AI研究员
- AI开发/工程师
- 记者
- 其他
地理位置:IP定位
勾选框:提交即表示接受许可条款并同意按Meta隐私政策处理信息
授权说明:>-
所提供信息将按Meta隐私政策处理。
授权按钮:提交
授权标题:"请提供完整法定姓名、出生日期及含公司标识的全称。避免使用缩写和特殊字符。未按要求填写可能导致无法访问本模型及Hugging Face其他模型。提交后不可修改,请确保信息准确。"
许可证类型:其他
许可证名称:llama4
当前4-bit模型仅支持Unsloth!
查看我们的合集获取含4-bit和16-bit格式的Llama 4版本。
Unsloth的动态量化技术显著提升了4-bit精度。
模型信息
Llama 4系列是多模态AI模型,采用混合专家架构,在文本和图像理解方面具有领先性能。本次发布包含两个高效模型:16专家的170亿参数Llama 4 Scout和128专家的170亿参数Llama 4 Maverick。
开发者:Meta
架构:基于自回归语言模型的混合专家架构,支持早期多模态融合。
模型名称 |
训练数据来源 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
训练token量 |
知识截止日期 |
Llama 4 Scout |
Meta产品及公开数据 |
170亿(激活)/1090亿(总) |
多语言文本+图像 |
多语言文本+代码 |
10M |
~40T |
2024年8月 |
Llama 4 Maverick |
同上 |
170亿(激活)/4000亿(总) |
多语言文本+图像 |
多语言文本+代码 |
1M |
~22T |
2024年8月 |
支持语言:阿拉伯语、英语等12种语言
发布日期:2025年4月5日
许可证:自定义商业许可,详见GitHub链接
反馈渠道:通过Llama README提交
使用目的
适用场景:商业与研究用途,包括聊天助手、视觉推理、多语言生成等。支持通过合成数据改进其他模型。
限制范围:禁止违法使用及超出模型支持语言/能力范围的应用。开发者可对200种预训练语言进行微调,但需自行确保安全性。
使用方法
需安装transformers v4.51.0:
from transformers import AutoProcessor, Llama4ForConditionalGeneration
硬件与能耗
训练资源:使用Meta定制GPU集群,总耗能738万GPU小时(H100-80GB)。
碳排放:基于位置的碳排放为1999吨CO2当量,因Meta使用100%可再生能源,市场基准排放为0吨。
训练数据
数据来源:包含Meta产品公开数据及授权数据,截止2024年8月。Scout模型训练约40万亿token,Maverick约22万亿token。
性能基准
预训练模型对比
测试项 |
Llama 3.1 70B |
Llama 4 Scout |
MMLU(5-shot) |
79.3 |
79.6 |
MATH(4-shot) |
41.6 |
50.3 |
指令调优模型对比
测试项 |
Llama 3.3 70B |
Llama 4 Maverick |
MMMU(0-shot) |
不支持多模态 |
73.4 |
LiveCodeBench |
33.3 |
43.4 |
量化支持
Scout模型支持BF16权重及实时int4量化;Maverick提供BF16和FP8量化版本,FP8版本可单卡部署。
安全措施
采用三支柱策略:
- 模型级调优:通过人工标注与合成数据降低安全风险,优化拒绝语气和系统提示词灵活性
- 系统防护:集成Llama Guard等防护工具
- 社区治理:设立漏洞赏金计划和输出反馈机制
重点关注三大风险领域:
- CBRNE(生化核爆)信息管控
- 儿童安全保护
- 网络攻击防范
注意事项
Llama 4作为新技术存在不可预测的输出风险。开发者应:
模型秉持言论自由价值观,尊重用户自主权,开发者需对具体应用场景的安全性全权负责。