MobileLLM-1.5B开源语言模型 - 适用于资源受限端侧应用免费部署

首页

Mobilellm 1.5B

由 facebook 开发

MobileLLM是Meta开发的优化Transformer架构语言模型，专为资源受限的端侧应用设计，参数规模从125M到1.5B不等。

大型语言模型

Transformers

英语开源协议:其他 #端侧优化 #轻量级模型 #高效推理

下载量 89

发布时间 : 11/26/2024

模型简介

MobileLLM是一种自回归语言模型，采用优化的Transformer架构，专注于在资源受限的设备上实现高效性能。

模型特点

端侧优化设计

专为资源受限设备设计，通过架构优化实现高效推理

高性能小模型

在相同参数规模下显著超越同类模型性能

训练充分

所有模型均训练1T tokens数据量

技术集成

整合SwiGLU激活函数、分组查询注意力等多项先进技术

模型能力

文本生成

常识推理

零样本学习

使用案例

移动端应用

移动设备智能助手

在资源受限的移动设备上实现流畅的对话体验

研究

小模型性能研究

探索参数效率与模型性能的关系

🚀 MobileLLM - 面向端侧应用的优化语言模型

MobileLLM是专门为资源受限的端侧应用场景设计的自回归语言模型。它采用优化的Transformer架构，集成了多种关键技术，在零样本常识推理任务上表现出色，为端侧自然语言处理提供了高效解决方案。

🚀 快速开始

我们提供了两种运行模型的方式：

HuggingFace方式
MobileLLM代码库方式

HuggingFace

若要加载预训练模型以进行进一步的微调或评估，可使用以下代码：

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/MobileLLM-1.5B", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("facebook/MobileLLM-1.5B", trust_remote_code=True)

请注意，默认的分词器不包含特殊标记。例如，你可以使用以下代码添加特殊标记：

tokenizer.add_special_tokens(
    {
        "eos_token": "</s>",
        "bos_token": "<s>",
        "unk_token": "<unk>",
    }
)

MobileLLM代码库

我们在 https://github.com/facebookresearch/MobileLLM 提供了预训练代码。按照以下步骤操作：

> git clone https://github.com/facebookresearch/MobileLLM
> pip install -r requirement.txt

# 数据预处理并在pretrain.sh中指定数据路径
# 运行预训练
> bash pretrain.sh

我们还提供了用于计算wikitext-2测试集困惑度（ppl）的评估脚本：

> bash eval.sh

你可以在GitHub仓库中找到更多详细信息。

✨ 主要特性

优化的Transformer架构：专为资源受限的端侧应用设计。
集成关键技术：包括SwiGLU激活函数、深而窄的架构、嵌入共享和分组查询注意力（GQA）。
出色的性能表现：在零样本常识推理任务上，相较于同规模的现有模型，MobileLLM-125M/350M分别实现了2.7%/4.3%的准确率提升。在更新版本中，MobileLLM-600M/1B/1.5B也取得了最优结果。

📦 模型详情

模型架构

MobileLLM是一个自回归语言模型，采用了优化的Transformer架构，专门为资源受限的端侧应用而设计。它集成了以下关键技术：

SwiGLU激活函数
深而窄的架构
嵌入共享
分组查询注意力（GQA）

模型参数

模型	层数	注意力头数	KV头数	词元维度	参数数量
MobileLLM-125M	30	9	3	576	124.6M
MobileLLM-350M	32	15	5	960	345.3M
MobileLLM-600M	40	18	6	1152	603.1M
MobileLLM-1B	54	20	5	1280	1.01B
MobileLLM-1.5B	54	25	5	1600	1.51B

训练数据与相关设置

模型	训练数据	输入模态	输出模态	上下文长度	GQA	共享嵌入	词元数量
MobileLLM-125M	公开可用的在线数据	文本	文本	2k	是	是	1T词元
MobileLLM-350M	公开可用的在线数据	文本	文本	2k	是	是	1T词元
MobileLLM-600M	公开可用的在线数据	文本	文本	2k	是	是	1T词元
MobileLLM-1B	公开可用的在线数据	文本	文本	2k	是	是	1T词元
MobileLLM-1.5B	公开可用的在线数据	文本	文本	2k	是	是	1T词元

模型图片

image/jpeg

📊 训练成本

使用32块NVIDIA A100 80G GPU在1T词元上训练MobileLLM所需的天数如下：

125M	350M	600M	1B	1.5B
~3天	~6天	~8天	~12天	~18天

📈 评估结果

我们在零样本常识推理任务上对预训练的MobileLLM模型进行了评估，结果如下：

MobileLLM-125M

模型	arc_easy	arc_challenge	boolq	piqa	siqa	hellaswag	obqa	winogrande	平均
OPT-125M	41.3	25.2	57.5	62.0	41.9	31.1	31.2	50.8	42.6
GPT-neo-125M	40.7	24.8	61.3	62.5	41.9	29.7	31.6	50.7	42.9
Pythia-160M	40.0	25.3	59.5	62.0	41.5	29.9	31.2	50.9	42.5
MobileLLM-125M	43.9	27.1	60.2	65.3	42.4	38.9	39.5	53.1	46.3
MobileLLM-LS-125M	45.8	28.7	60.4	65.7	42.9	39.5	41.1	52.1	47.0

MobileLLM-350M

模型	arc_easy	arc_challenge	boolq	piqa	siqa	hellaswag	obqa	winogrande	平均
OPT-350M	41.9	25.7	54.0	64.8	42.6	36.2	33.3	52.4	43.9
Pythia-410M	47.1	30.3	55.3	67.2	43.1	40.1	36.2	53.4	46.6
MobileLLM-350M	53.8	33.5	62.4	68.6	44.7	49.6	40.0	57.6	51.3
MobileLLM-LS-350M	54.4	32.5	62.8	69.8	44.1	50.6	45.8	57.2	52.1

MobileLLM-600M

模型	arc_easy	arc_challenge	boolq	piqa	siqa	hellaswag	obqa	winogrande	平均
Qwen1.5-500M	54.7	32.1	46.9	68.9	46.0	48.8	37.7	55.0	48.8
BLOOM-560M	43.7	27.5	53.7	65.1	42.5	36.5	32.6	52.2	44.2
MobiLlama-800M	52.0	31.7	54.6	73.0	43.3	52.3	42.5	56.3	50.7
MobileLLM-600M	58.1	35.8	61.0	72.3	44.9	55.9	47.9	58.6	54.3

MobileLLM-1B

模型	arc_easy	arc_challenge	boolq	piqa	siqa	hellaswag	obqa	winogrande	平均
Pythia-1B	49.9	30.4	58.7	69.2	43.3	47.4	38.6	52.2	48.7
MobiLlama-1B	59.7	38.4	59.2	74.5	44.9	62.0	43.7	59.0	55.2
Falcon-1B	59.5	38.4	63.9	74.6	44.6	62.9	45.6	60.9	56.3
BLOOM-1.1B	47.6	27.3	58.6	67.0	42.4	42.2	36.6	53.8	46.9
TinyLlama-1.1B	59.2	37.1	58.1	72.9	43.9	59.1	44.7	58.8	54.2
MobileLLM-1B	63.0	39.0	66.7	74.4	45.0	61.4	46.8	62.3	57.3

MobileLLM-1.5B

模型	arc_easy	arc_challenge	boolq	piqa	siqa	hellaswag	obqa	winogrande	平均
GPT-neo-1.3B	51.3	33.0	61.8	70.9	43.7	48.6	41.2	54.5	50.6
OPT-1.3B	54.4	31.7	58.4	71.5	44.7	53.7	44.6	59.1	52.3
BLOOM-1.7B	50.9	31.2	61.7	70.0	43.2	47.2	36.2	56.1	49.6
Qwen1.5-1.8B	61.1	36.5	68.3	74.1	47.2	60.4	42.9	61.2	56.5
GPT-neo-2.7B	55.8	34.3	62.4	72.9	43.6	55.6	40.0	57.9	52.8
OPT-2.7B	56.6	34.6	61.8	74.5	45.6	60.2	48.2	59.6	55.1
Pythia-2.8B	59.4	38.9	66.1	73.8	44.5	59.6	45.0	59.4	55.8
BLOOM-3B	55.1	33.6	62.1	70.5	43.2	53.9	41.6	58.2	52.3
MobileLLM-1.5B	67.5	40.9	65.7	74.8	46.4	64.5	50.5	64.7	59.4

🙏 致谢

此代码部分基于HuggingFace的 Transformers 仓库，遵循 Apache许可证。

📚 引用

如果您发现我们的代码对您的研究有帮助，请考虑引用：

@article{liu2024mobilellm,
    title={MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases},
    author={Liu, Zechun and Zhao, Changsheng and Iandola, Forrest and Lai, Chen and Tian, Yuandong and Fedorov, Igor and Xiong, Yunyang and Chang, Ernie and Shi, Yangyang and Krishnamoorthi, Raghuraman and others},
    journal={arXiv preprint arXiv:2402.14905},
    year={2024}
}

📄 许可证

目前，MobileLLM采用FAIR非商业研究许可证。详细的许可证内容如下：

FAIR非商业研究许可证

最后更新时间：2025年4月17日

“可接受使用政策”指适用于研究材料并纳入本协议的FAIR可接受使用政策。

“协议”指本协议中规定的研究材料的使用、复制、分发和修改的条款和条件。

“文档”指Meta分发的研究材料附带的规格说明、手册和文档。

“被许可方”或“您”指您，或您的雇主，或任何其他个人或实体（如果您代表该个人或实体签订本协议），且该个人或实体达到适用法律、规则或法规要求的提供法律同意的年龄，并有权约束您的雇主或该其他个人或实体（如果您代表他们签订本协议）。

“Meta”或“我们”指Meta Platforms Ireland Limited（如果您位于欧洲经济区（EEA）或瑞士，或者如果您是一个实体，您的主要营业地位于欧洲经济区或瑞士）和Meta Platforms, Inc.（如果您位于欧洲经济区或瑞士以外）。

“非商业研究用途”指与研究、开发、教育、处理或分析相关的非商业研究用例，且在每种情况下，主要目的不是为您或他人带来商业利益或货币补偿。

“研究材料”指文档以及模型、软件和算法，包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码、演示材料以及Meta分发并根据本协议提供的上述各项的其他元素。

通过点击下方的“我接受”，或使用或分发研究材料的任何部分或元素，您同意受本协议的约束。

许可权利和再分发
- 权利授予：您被授予在Meta体现在研究材料中的知识产权或Meta拥有的其他权利下的非排他性、全球性、不可转让且免版税的有限许可，以使用、复制、分发、拷贝、创作衍生作品并对研究材料进行修改。
- 再分发和使用
  - 您不得将研究材料或研究材料的任何输出或结果用于任何商业用途，或用于非商业研究用途以外的任何用途。
  - 研究材料及其任何衍生作品的再分发须遵守本协议的条款。如果您将研究材料或其任何衍生作品提供给第三方，您只能根据本协议的条款进行。您还应向该第三方提供本协议的副本。
  - 如果您提交使用研究材料进行的研究结果以供发表，您必须在出版物中承认使用了研究材料。
  - 您对研究材料的使用必须遵守适用的法律和法规（包括贸易管制法律），并遵守FAIR可接受使用政策，该政策特此通过引用纳入本协议。
用户支持：您对研究材料的非商业研究使用由您自行决定；Meta不处理任何信息，也不就此类使用提供任何服务。Meta没有义务为研究材料提供任何支持服务。提供的任何支持均“按现状”提供，“带有所有缺陷”，且不提供任何形式的保证。
免责声明：除非适用法律要求，研究材料及其任何输出和结果均“按现状”提供，不提供任何形式的保证，Meta否认所有明示和暗示的保证，包括但不限于所有权、不侵权、适销性或特定用途适用性的保证。您独自负责确定使用或再分发研究材料的适当性，并承担与您使用研究材料及其任何输出和结果相关的任何风险。
责任限制：在任何情况下，Meta或其关联公司均不对因本协议引起的任何责任理论（无论是合同、侵权、疏忽、产品责任还是其他）承担任何直接或间接、特殊、后果性、偶发性、示范性或惩罚性损害赔偿，包括任何利润损失，即使Meta或其关联公司已被告知可能发生上述任何损害赔偿。
知识产权
- 关于Meta拥有的研究材料及其为Meta制作的衍生作品，就您制作的研究材料的任何衍生作品和修改而言，在您和Meta之间，您是且将是此类衍生作品和修改的所有者。
- 如果您对Meta或任何实体（包括在诉讼中的交叉索赔或反诉）提起诉讼或其他程序，声称研究材料、输出或结果或上述任何部分构成侵犯您拥有或可许可的知识产权或其他权利，则本协议授予您的任何许可将自提起此类诉讼或索赔之日起终止。您将赔偿并使Meta免受任何第三方因您使用或分发研究材料而产生的或与之相关的任何索赔。
期限和终止：本协议的期限将自您接受本协议或访问研究材料时开始，并将持续有效，直至根据本协议的条款和条件终止。如果您违反本协议的任何条款和条件，Meta可终止本协议。本协议终止后，您应删除并停止使用研究材料。第5、6和9条在本协议终止后仍然有效。
适用法律和管辖权：本协议将受加利福尼亚州法律管辖并依其解释，不考虑法律选择原则，《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。
修改和修订：Meta可不时通过在 https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE 发布修订版本来修改本协议；前提是修订后的版本与本协议的当前版本在精神上相似，但在细节上可能有所不同，以解决新的问题或担忧。所有此类更改将立即生效。在本协议进行任何修改后，您继续使用研究材料即表示您同意此类修改。除非本协议另有规定，否则对本协议任何条款的修改或补充，除非以书面形式并由您和Meta的授权代表签署，否则不具有约束力。

FAIR可接受使用政策

Meta的基础人工智能研究（FAIR）团队致力于通过开放研究推动人工智能的发展，以增进对新的和现有的研究领域的理解，造福所有人。作为这一使命的一部分，Meta提供某些研究材料供非商业研究使用。Meta致力于促进此类研究材料的安全和负责任使用。

禁止使用情况

您同意不会使用或允许他人使用研究材料进行以下行为：

违反法律或他人权利
- 从事、促进、生成、促成、鼓励、策划、煽动或进一步推动非法或违法活动或内容，例如：
  - 暴力或恐怖主义
  - 对儿童的剥削或伤害，包括招揽、创作、获取或传播儿童剥削内容，或未能报告儿童性虐待材料
  - 人口贩运、剥削和性暴力
  - 向未成年人非法分发信息或材料，包括淫秽材料，或未能对此类信息或材料采用法律要求的年龄限制
  - 性招揽
  - 任何其他犯罪活动
- 从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌
- 从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务的提供方面的歧视或其他非法或有害行为
- 从事未经授权或无执照的任何专业实践，包括但不限于金融、法律、医疗/健康或相关专业实践
- 在未获得适用法律要求的权利和同意的情况下，收集、处理、披露、生成或推断个人的健康、人口统计或其他敏感个人或私人信息
- 从事或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为或生成任何内容，包括使用FAIR研究材料的任何技术的输出或结果
- 创建、生成或便利创建恶意代码、恶意软件、计算机病毒，或进行任何可能禁用、过度负担、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的其他行为
从事、促进、煽动、便利或协助策划或开展对个人造成死亡或身体伤害风险的活动，包括使用与以下相关的研究成果：
- 军事、战争、核工业或应用、间谍活动，用于受美国国务院维护的《国际武器贸易条例》（ITAR）管制的材料或活动
- 枪支和非法武器（包括武器开发）
- 非法毒品和受管制/受控物质
- 关键基础设施、运输技术或重型机械的运营
- 自我伤害或伤害他人，包括自杀、自残和饮食失调
- 任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容
故意欺骗或误导他人，包括使用与以下相关的FAIR研究材料：
- 生成、促进或进一步推动欺诈或创建或促进虚假信息
- 生成、促进或进一步推动诽谤性内容，包括创建诽谤性声明、图像或其他内容
- 生成、促进或进一步分发垃圾邮件
- 在未经同意、授权或合法权利的情况下冒充他人
- 表示FAIR研究材料的输出或使用FAIR研究材料的技术的输出是人类生成的
- 生成或便利虚假的在线互动，包括虚假评论和其他虚假在线互动方式
未能向最终用户适当披露研究材料的任何已知危险。