Sheared-LLaMA-1.3B开源语言模型 - 高效文本处理，免费部署轻松上手！

首页

Sheared LLaMA 1.3B

由 princeton-nlp 开发

Sheared-LLaMA-1.3B是基于LLaMA-2-7B通过结构化剪枝和持续预训练得到的高效语言模型

大型语言模型

Transformers

开源协议:Apache-2.0 #结构化剪枝优化 #高效预训练 #下游任务泛化

下载量 11.09k

发布时间 : 10/10/2023

模型简介

该模型通过动态加载RedPajama数据集进行剪枝和持续预训练，在50B token预算下实现了优于同类模型的性能

模型特点

高效剪枝技术

仅使用0.4B token进行剪枝，大幅降低计算成本

持续预训练

使用50B token对剪枝后的模型进行持续预训练，保持性能

兼容性

与LLaMA1和LLaMA2使用相同词汇表，便于迁移使用

模型能力

文本生成

语言理解

推理任务

阅读理解

知识密集型任务处理

使用案例

自然语言处理

语言模型基准测试

在ARC、HellaSwag等基准测试中表现优异

平均性能51.0，优于同类1.3B参数模型

知识问答

处理知识密集型问答任务

在TruthfulQA上获得37.14分

🚀 Sheared-LLaMA模型

Sheared-LLaMA是从Llama2派生而来的模型，通过结构化剪枝和进一步预训练，在较小的预训练预算下实现了出色的性能，为大语言模型的发展提供了新的思路和方法。

🚀 快速开始

模型加载

Sheared-LLaMA-1.3B 模型可以通过HuggingFace加载，代码如下：

model = AutoModelForCausalLM.from_pretrained("princeton-nlp/Sheared-LLaMA-1.3B")

✨ 主要特性

规模更小：Sheared-LLaMA模型在较小的规模下实现了较好的性能。
词汇表一致：与LLaMA1和LLaMA2使用相同的词汇表。
高效派生：利用现有的强大大语言模型，在50B令牌的预算下派生而来。

📚 详细文档

模型来源

Sheared-LLaMA-1.3B是从 meta-llama/Llama-2-7b-hf 剪枝并进一步预训练得到的模型。我们从 RedPajama数据集的不同领域动态加载数据，对模型进行剪枝和继续预训练。剪枝使用了0.4B令牌，对剪枝后的模型继续预训练使用了50B令牌。

下游任务评估

我们在包括推理、阅读理解、语言建模和知识密集型任务等广泛的下游任务上进行了评估。我们的Sheared-LLaMA模型优于现有的大语言模型。以下是不同模型在不同规模下的平均性能对比：

7B规模

模型	预训练令牌数	平均性能
LLaMA2-7B	2T	64.6

1.3B规模

模型	预训练令牌数	平均性能
OPT-1.3B	300B	48.2
Pythia-1.4B	300B	48.9
Sheared-LLaMA-1.3B	50B	51.0

3B规模

模型	预训练令牌数	平均性能
OPT-2.7B	300B	51.4
Pythia-2.8B	300B	52.5
INCITE-Base-3B	800B	54.7
Open-LLaMA-3B-v1	1T	55.1
Open-LLaMA-3B-v2	1T	55.7
Sheared-LLaMA-2.7B	50B	56.7

Open LLM Leaderboard评估结果

详细结果可查看此处

指标	值
平均	31.47
ARC (25-shot)	32.85
HellaSwag (10-shot)	60.91
MMLU (5-shot)	25.71
TruthfulQA (0-shot)	37.14
Winogrande (5-shot)	58.64
GSM8K (5-shot)	0.45
DROP (3-shot)	4.56

📄 许可证

由于Sheared-LLaMA是从Llama2派生而来的模型，因此必须遵守Llama2的许可证。本项目采用Apache-2.0许可证。

📚 引用信息

如果您使用了本项目的模型或代码，请引用以下论文：

@article{xia2023sheared,
  title={Sheared llama: Accelerating language model pre-training via structured pruning},
  author={Xia, Mengzhou and Gao, Tianyu and Zeng, Zhiyuan and Chen, Danqi},
  journal={arXiv preprint arXiv:2310.06694},
  year={2023}
}