库名称: transformers
支持语言:
-
阿拉伯语
-
德语
-
英语
-
西班牙语
-
法语
-
印地语
-
印尼语
-
意大利语
-
葡萄牙语
-
泰语
-
他加禄语
-
越南语
标签:
-
脸书
-
Meta
-
PyTorch
-
羊驼模型
-
羊驼4
授权协议提示: >-
羊驼4社区许可协议
羊驼4版本生效日期:2025年4月5日
"协议"指本文规定的关于羊驼材料使用、复制、分发和修改的条款与条件。
"文档"指Meta在https://www.llama.com/docs/overview发布的羊驼4配套规格说明书、手册和文档。
"被许可方"或"您"指达到适用法律规定的法定年龄、具有法律行为能力,并代表自身或雇主/实体接受本协议的个人或组织。
"羊驼4"指Meta在https://www.llama.com/llama-downloads发布的基础大语言模型及配套软件算法,包括机器学习模型代码、训练权重、推理代码、训练代码、微调代码等组件。
"羊驼材料"统指根据本协议提供的Meta专有羊驼4模型及文档(或其任何部分)。
"Meta"或"我们"指:若您位于欧洲经济区或瑞士,则为Meta Platforms爱尔兰有限公司;其他地区则为Meta Platforms Inc.。
点击下方"我接受"或使用/分发羊驼材料任何部分,即表示您同意受本协议约束。
-
许可权利与再分发
a. 权利授予。Meta授予您非独占、全球性、不可转让、免版税的有限许可,允许使用、复制、分发羊驼材料及创建其衍生作品。
b. 再分发要求:
i. 若分发羊驼材料或其衍生作品,须:(A)随附本协议副本;(B)在相关界面显著标注"基于羊驼构建"。若用于训练新AI模型,须以"羊驼"作为模型名称前缀。
ii. 若通过集成产品获取羊驼材料,则第2条不适用。
iii. 须在所有分发副本中保留版权声明:"羊驼4采用羊驼4社区许可协议,版权所有©Meta Platforms Inc."。
iv. 使用须符合适用法律及《可接受使用政策》(https://www.llama.com/llama4/use-policy)。
-
商业附加条款。若月活用户超7亿,须向Meta申请商业许可。
-
免责声明。除非法律要求,羊驼材料按"原样"提供,不附带任何明示或默示担保。
-
责任限制。Meta不对因本协议产生的间接、特殊、附带或惩罚性损害承担责任。
-
知识产权:
a. 仅允许为合规使用"羊驼"商标,须遵循品牌指南。
b. 您拥有自主创建的衍生作品所有权。
c. 若对Meta提起知识产权诉讼,则许可自动终止。
-
期限与终止。违约时Meta可终止协议,终止后须删除所有材料。第3、4、7条在终止后仍有效。
-
法律管辖。本协议受加州法律管辖,排除《联合国国际货物销售合同公约》适用。
授权表单字段:
名: 文本
姓: 文本
出生日期: 日期选择
国家: 国家选择
所属机构: 文本
职位:
类型: 下拉
选项:
- 学生
- 研究生
- AI研究员
- AI开发工程师
- 记者
- 其他
地理位置: IP定位
勾选框: 接受许可条款并同意按Meta隐私政策处理信息
授权表单说明: >-
所提供信息将根据Meta隐私政策处理。
提交按钮: 提交
表单标题: "请务必提供完整法定姓名、出生日期及含公司标识的全称。避免使用缩写和特殊字符。填写错误可能导致无法访问本模型。提交后不可修改,请确保信息准确。"
许可证类型: other
许可证名称: llama4
线性化专家模型
这是该模型的4位量化版本,专家模块被分解线性化以便更好兼容PEFT/LoRA。在Axolotl中使用时,只需在YAML中添加:
llama4_linearized_experts: true
示例Axolotl配置
模型信息
羊驼4系列是多模态AI模型,采用混合专家架构(MoE),在文本和图像理解方面具有领先性能。本次发布两个高效模型:
- 羊驼4 Scout:170亿参数,16专家
- 羊驼4 Maverick:170亿参数,128专家
开发者: Meta
架构: 自回归语言模型,支持早期多模态融合
模型名称 |
训练数据 |
参数量 |
输入模态 |
输出模态 |
上下文长度 |
训练token量 |
知识截止 |
Scout (17Bx16E) |
公开数据、授权数据及Meta产品数据(含Instagram/Facebook公开内容) |
170亿(激活) |
多语言文本+图像 |
多语言文本+代码 |
10M |
~40T |
2024年8月 |
Maverick (17Bx128E) |
|
170亿(激活) |
|
|
1M |
~22T |
2024年8月 |
支持语言:阿拉伯语、英语、法语等12种语言
发布日期:2025年4月5日
许可证:羊驼4社区许可协议
使用方式
预期用途:
- 商业/研究用途
- 对话助手/视觉推理(精调模型)
- 自然语言生成/图像理解(预训练模型)
- 支持合成数据生成与蒸馏
限制:
- 超12种支持语言需自行微调并确保安全
- 图像理解测试上限为5张输入图
from transformers import pipeline
import torch
pipe = pipeline(
"text-generation",
model="meta-llama/Llama-4-Scout-17B-16E",
device_map="auto",
torch_dtype=torch.bfloat16,
)
output = pipe("玫瑰是红色的,", max_new_tokens=200)
训练数据
数据构成:
- Scout:约40万亿token多模态数据
- Maverick:约22万亿token
- 含Instagram/Facebook公开内容及用户与Meta AI的交互
基准测试
预训练模型表现
类别 |
基准测试 |
Llama 3.1 70B |
Llama 3.1 405B |
Scout |
Maverick |
推理知识 |
MMLU |
79.3 |
85.2 |
79.6 |
85.5 |
代码 |
MBPP |
66.4 |
74.4 |
67.8 |
77.6 |
图像 |
DocVQA |
不支持 |
|
89.4 |
91.6 |
精调模型表现
类别 |
基准测试 |
Scout |
Maverick |
图像推理 |
MMMU |
69.4 |
73.4 |
编程 |
LiveCodeBench |
32.8 |
43.4 |
长文本处理 |
MTOB全书翻译 |
39.7 |
50.8 |
安全措施
三层防护策略:
- 模型级精调:优化拒绝语气,减少误拒
- 系统级防护:集成Llama Guard等安全工具
- 社区治理:设立漏洞赏金计划
系统提示词示例:
您是一位善于交流的专家,能灵活切换幽默、共情等风格。避免说教语气,不拒绝政治社会议题讨论。知识截止2024年8月,支持12种语言。
碳排放
训练耗能:
- 总GPU小时:738万(H100-80GB)
- 当量碳排放:1999吨(实际为0,因Meta使用100%可再生能源)
计算方法参考
注意事项
- 输出不可预测,部署前需针对性安全测试
- 尊重表达自由,开发者需为具体应用负责
- 建议参考开发者指南获取最新安全建议
社区案例 | 影响力资助计划