Openelm 1 1B Instruct

由 apple 开发

OpenELM是一组开源高效语言模型，采用分层缩放策略在Transformer模型的每一层中高效分配参数，从而提升模型精度。

大型语言模型

Transformers

#分层参数分配 #高效语言模型 #指令微调

下载量 1.5M

发布时间 : 4/12/2024

模型介绍

内容详情

替代品

模型简介

OpenELM系列包含2.7亿、4.5亿、11亿和30亿参数的预训练及指令调优模型，完整开源了训练框架和评估流程。

模型特点

分层缩放策略

在Transformer模型的每一层中高效分配参数，提升模型精度

完整开源框架

提供从数据准备、训练、微调到评估的完整流程

多规模选择

提供从2.7亿到30亿参数的不同规模模型

指令调优版本

提供经过指令优化的模型版本，适合对话和指令跟随任务

模型能力

文本生成

指令理解

问答系统

语言理解

使用案例

教育

智能问答系统

用于教育领域的知识问答和解释

在SciQ数据集上达到90.6%准确率

研究

语言模型研究

作为基础模型供研究人员进行实验和改进

提供完整的训练框架和评估流程

license: apple-amlr license_name: apple-sample-code-license license_link: LICENSE

OpenELM

作者：Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari

我们推出OpenELM系列模型，这是一组开源高效语言模型。OpenELM采用分层参数分配策略，在Transformer模型的每一层中智能分配参数，从而提升模型精度。我们使用CoreNet库对OpenELM进行了预训练，发布了包含2.7亿、4.5亿、11亿和30亿参数的预训练模型及指令调优版本。我们开源了完整框架，涵盖数据准备、训练、微调和评估流程，同时提供多个预训练检查点和训练日志，以促进开放研究。

预训练数据集包含RefinedWeb、去重PILE、RedPajama子集和Dolma v1.6子集，总计约1.8万亿token。使用前请查阅各数据集的许可协议和使用条款。

使用指南

我们提供了示例脚本generate_openelm.py，展示如何通过HuggingFace Hub加载OpenELM模型并生成文本。

运行以下命令体验模型：

python generate_openelm.py --model apple/OpenELM-1_1B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt '从前有座山' --generate_kwargs repetition_penalty=1.2

获取HuggingFace访问令牌请参考此链接。

可通过generate_kwargs传递额外生成参数。例如使用前瞻token推测生成加速推理：

python generate_openelm.py --model apple/OpenELM-1_1B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt '从前有座山' --generate_kwargs repetition_penalty=1.2 prompt_lookup_num_tokens=10

或通过assistant_model参数使用辅助模型进行协同生成：

python generate_openelm.py --model apple/OpenELM-1_1B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt '从前有座山' --generate_kwargs repetition_penalty=1.2 --assistant_model [小模型路径]

核心结果

零样本学习

模型规模	ARC-c	ARC-e	BoolQ	HellaSwag	PIQA	SciQ	WinoGrande	平均分
OpenELM-270M	26.45	45.08	53.98	46.71	69.75	84.70	53.91	54.37
OpenELM-270M-Instruct	30.55	46.68	48.56	52.07	70.78	84.40	52.72	55.11
OpenELM-450M	27.56	48.06	55.78	53.97	72.31	87.20	58.01	57.56
OpenELM-450M-Instruct	30.38	50.00	60.37	59.34	72.63	88.00	58.96	59.95
OpenELM-1_1B	32.34	55.43	63.58	64.81	75.57	90.60	61.72	63.44
OpenELM-1_1B-Instruct	37.97	52.23	70.00	71.20	75.03	89.30	62.75	65.50
OpenELM-3B	35.58	59.89	67.40	72.44	78.24	92.70	65.51	67.39
OpenELM-3B-Instruct	39.42	61.74	68.17	76.36	79.00	92.50	66.85	69.15

LLM360评估

模型规模	ARC-c	HellaSwag	MMLU	TruthfulQA	WinoGrande	平均分
OpenELM-270M	27.65	47.15	25.72	39.24	53.83	38.72
OpenELM-270M-Instruct	32.51	51.58	26.70	38.72	53.20	40.54
OpenELM-450M	30.20	53.86	26.01	40.18	57.22	41.50
OpenELM-450M-Instruct	33.53	59.31	25.41	40.48	58.33	43.41
OpenELM-1_1B	36.69	65.71	27.05	36.98	63.22	45.93
OpenELM-1_1B-Instruct	41.55	71.83	25.65	45.95	64.72	49.94
OpenELM-3B	42.24	73.28	26.76	34.98	67.25	48.90
OpenELM-3B-Instruct	47.70	76.87	24.80	38.76	67.96	51.22

OpenLLM排行榜

模型规模	ARC-c	CrowS-Pairs	HellaSwag	MMLU	PIQA	RACE	TruthfulQA	WinoGrande	平均分
OpenELM-270M	27.65	66.79	47.15	25.72	69.75	30.91	39.24	53.83	45.13
OpenELM-270M-Instruct	32.51	66.01	51.58	26.70	70.78	33.78	38.72	53.20	46.66
OpenELM-450M	30.20	68.63	53.86	26.01	72.31	33.11	40.18	57.22	47.69
OpenELM-450M-Instruct	33.53	67.44	59.31	25.41	72.63	36.84	40.48	58.33	49.25
OpenELM-1_1B	36.69	71.74	65.71	27.05	75.57	36.46	36.98	63.22	51.68
OpenELM-1_1B-Instruct	41.55	71.02	71.83	25.65	75.03	39.43	45.95	64.72	54.40
OpenELM-3B	42.24	73.29	73.28	26.76	78.24	38.76	34.98	67.25	54.35
OpenELM-3B-Instruct	47.70	72.33	76.87	24.80	79.00	38.47	38.76	67.96	55.73

更多结果对比详见技术报告。

评估流程

环境配置

安装依赖项：

# 安装公开lm-eval评测框架
harness_repo="public-lm-eval-harness"
git clone https://github.com/EleutherAI/lm-evaluation-harness ${harness_repo}
cd ${harness_repo}
# 使用2024-03-15的main分支（提交SHA dc90fec）
git checkout dc90fec
pip install -e .
cd ..

# 安装2024-04-01的main分支（提交SHA 66d6242）
pip install datasets@git+https://github.com/huggingface/datasets.git@66d6242
pip install tokenizers>=0.15.2 transformers>=4.38.2 sentencepiece>=0.2.0

执行评估

# 评估OpenELM-1_1B-Instruct
hf_model=apple/OpenELM-1_1B-Instruct
tokenizer=meta-llama/Llama-2-7b-hf
add_bos_token=True
batch_size=1

mkdir lm_eval_output

# 零样本评估
shot=0
task=arc_challenge,arc_easy,boolq,hellaswag,piqa,race,winogrande,sciq,truthfulqa_mc2
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

# 5样本评估
shot=5
task=mmlu,winogrande
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

# 25样本评估
shot=25
task=arc_challenge,crows_pairs_english
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

# 10样本评估
shot=10
task=hellaswag
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

风险提示

OpenELM模型的发布旨在通过提供先进语言模型推动开放研究。这些基于公开数据集训练的模型未设置安全防护机制，可能产生不准确、有害、偏见或不当内容。使用者需根据自身需求进行全面的安全测试并部署过滤机制。

引用

如果我们的工作对您有帮助，请引用：

@article{mehtaOpenELMEfficientLanguage2024,
	title = {{OpenELM}: 开放训练与推理框架下的高效语言模型家族},
	shorttitle = {{OpenELM}},
	url = {https://arxiv.org/abs/2404.14619v1},
	language = {zh},
	urldate = {2024-04-24},
	journal = {arXiv.org},
	author = {Mehta, Sachin and Sekhavat, Mohammad Hossein and Cao, Qingqing and Horton, Maxwell and Jin, Yanzi and Sun, Chenfan and Mirzadeh, Iman and Najibi, Mahyar and Belenko, Dmitry and Zatloukal, Peter and Rastegari, Mohammad},
	month = 4,
	year = {2024},
}

@inproceedings{mehta2022cvnets, 
     author = {Mehta, Sachin and Abdolhosseini, Farzad and Rastegari, Mohammad}, 
     title = {CVNets: 高性能计算机视觉库}, 
     year = {2022}, 
     booktitle = {第30届ACM多媒体国际会议论文集}, 
     series = {MM '22} 
}