许可证类型:其他
许可证名称:FAIR非商业研究许可
最后更新日期:2025年4月17日
关键定义
- "可接受使用政策":指适用于研究材料的FAIR可接受使用政策,已纳入本协议。
- "协议":指本文规定的关于研究材料使用、复制、分发和修改的条款与条件。
- "文档":指Meta分发的与研究材料配套的规范、手册及相关文档。
- "被许可方":指您,或您的雇主或其他实体(若您代表该实体签署本协议),需符合法定年龄要求并具有法律约束力。
- "Meta":根据您所在地区,指Meta Platforms Ireland Limited(欧盟/瑞士)或Meta Platforms, Inc.(其他地区)。
- "非商业研究用途":指与研究、开发、教育等相关的非商业用途,不以获取商业优势或金钱补偿为主要目的。
- "研究材料":包括文档、模型、软件、算法(如机器学习模型代码、训练权重、推理代码等)及相关内容。
使用条款
-
许可权利与再分发
- 授予您全球性、非独占、不可转让的免版税许可,允许使用、修改及创建研究材料的衍生作品。
- 限制:
- 仅限非商业研究用途;
- 再分发需遵守本协议条款,并向第三方提供协议副本;
- 发表研究成果时需注明使用Meta研究材料;
- 遵守适用法律及FAIR可接受使用政策。
-
用户支持
Meta无义务提供支持服务,任何支持均按"现状"提供,不附带任何保证。
-
免责声明
除非法律要求,研究材料按"原样"提供,Meta放弃所有明示或默示保证,包括适销性、特定用途适用性等。使用风险由您自行承担。
-
责任限制
Meta及其关联公司不对因本协议导致的任何间接、特殊、后果性损害承担责任。
-
知识产权
- 您对自行创建的衍生作品拥有所有权;
- 若您对Meta提起知识产权诉讼,本协议授予的许可将自动终止。
-
协议期限与终止
协议自接受之日起生效,Meta有权在您违约时终止协议。终止后,您需停止使用并删除研究材料。
-
法律管辖
本协议受加利福尼亚州法律管辖,排除《联合国国际货物销售合同公约》适用。
-
协议修改
Meta可通过指定链接更新协议,继续使用视为接受修改。
FAIR可接受使用政策
禁止用途
研究材料不得用于以下用途:
- 违法或侵犯他人权利的行为(如暴力、儿童剥削、人口贩卖等);
- 军事、武器开发、关键基础设施操作等高风险领域;
- 欺骗行为(如虚假信息、冒充他人等);
- 未向终端用户披露已知风险。
数据收集声明
提交表单需提供真实姓名、出生日期、所属机构等信息,这些数据将按Meta隐私政策处理。
模型详情
模型名称:MobileLLM
论文:《MobileLLM:为设备端用例优化的十亿参数以下语言模型》(ICML 2024)
开发者:Meta
架构特点
- 采用优化Transformer架构,专为资源受限设备设计;
- 关键技术:SwiGLU激活函数、深层窄结构、嵌入共享、分组查询注意力;
- 性能提升:125M/350M版本在常识推理任务上分别较前代提升2.7%/4.3%。
规格参数
模型 |
层数 |
注意力头数 |
KV头数 |
令牌维度 |
参数量 |
MobileLLM-125M |
30 |
9 |
3 |
576 |
124.6M |
MobileLLM-350M |
32 |
15 |
5 |
960 |
345.3M |
MobileLLM-600M |
40 |
18 |
6 |
1152 |
603.1M |
MobileLLM-1B |
54 |
20 |
5 |
1280 |
1.01B |
MobileLLM-1.5B |
54 |
25 |
5 |
1600 |
1.51B |
训练数据
所有模型均基于公开在线文本数据训练,上下文长度2k,使用GQA和共享嵌入技术,训练量达1万亿令牌。
使用方法
HuggingFace集成
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/MobileLLM-125M", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("facebook/MobileLLM-125M", trust_remote_code=True)
代码库使用
参见GitHub仓库:facebookresearch/MobileLLM
训练成本
在32块NVIDIA A100 80G GPU上的训练时间:
评估结果
各版本在零样本常识推理任务中的平均准确率:
- 125M:46.3%(较OPT-125M提升3.7%)
- 1.5B:59.4%(超越同类更大参数模型)
引用
@article{liu2024mobilellm,
title={MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases},
author={Liu, Zechun and Zhao, Changsheng and Iandola, Forrest and Lai, Chen and Tian, Yuandong and Fedorov, Igor and Xiong, Yunyang and Chang, Ernie and Shi, Yangyang and Krishnamoorthi, Raghuraman and others},
journal={arXiv preprint arXiv:2402.14905},
year={2024}
}
许可证:当前采用FAIR非商业研究许可。
致谢:部分代码基于HuggingFace Transformers(Apache许可证)。