luxia-21.4b-alignment-v1.2开源大语言模型 - 免费部署助力自然语言处理

首页

Luxia 21.4b Alignment V1.2

由 saltlux 开发

LUXIA-21.4B-Alignment是一款拥有214亿参数的大语言模型，在各类自然语言处理任务中展现出卓越性能。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #214亿参数大模型 #DPO优化对齐 #多任务NLP

下载量 1,839

发布时间 : 5/27/2024

模型简介

该模型在参数量35B以下的模型中展现了顶尖性能，甚至超越了72B参数模型和34Bx2混合专家模型。通过DPO训练从luxia-21.4b-instruct模型衍生而来。

模型特点

高性能

在参数量35B以下的模型中展现出顶尖性能，超越更大规模的模型

先进的训练方法

采用监督微调(SFT)和直接偏好优化(DPO)等前沿技术

优质训练数据

融合多个精选数据集，包括alpaca-gpt4-data、SlimOrca等

模型能力

文本生成

问答系统

自然语言理解

数学推理

使用案例

教育

数学问题解答

解答GSM8K数据集中的数学问题

在GSM8K评估中获得66.94分

知识问答

常识问答

回答ARC数据集中的常识问题

在ARC评估中获得77.73分

🚀 LUXIA-21.4B-Alignment大语言模型

LUXIA-21.4B-Alignment是一个拥有214亿参数的大语言模型（LLM），在各种自然语言处理（NLP）任务中表现卓越。在参数少于350亿的模型中，它展现出了无与伦比的先进性能，甚至超越了720亿参数的模型和340亿x2的专家混合（MoE）模型。具体评估结果请参考相关表格。

该模型是基于luxia - 21.4b - instruct模型通过DPO训练得到的，而luxia - 21.4b - instruct模型则是luxia - 21.4b模型经过SFT训练的版本。我们计划很快发布预训练模型和指令微调模型。

✨ 主要特性

卓越性能：在参数少于350亿的模型中达到先进水平，甚至超越部分更高参数模型。
多阶段训练：经过基础模型构建、指令微调、偏好优化等多阶段训练。
多数据集融合：在不同训练阶段使用多种公开数据集和内部生成数据集。

🔧 技术细节

模型构建与训练策略

luxia - 21.4b模型

基于internlm2 - 20b - llama模型，通过直通方法扩展层数创建基础模型。为恢复模型性能，进行了持续预训练。

luxia - 21.4b - instruct模型

采用包括监督微调（SFT）在内的先进指令微调方法。使用了以下数据集的混合：

c - s - ale/alpaca - gpt4 - data
Open - Orca/SlimOrca
利用Metamath内部生成的数据

luxia - 21.4b - alignment模型

采用包括直接偏好优化（DPO）在内的先进指令微调方法。使用了以下数据集的混合：

jondurbin/truthy - dpo - v0.1
abacusai/ARC_DPO_FewShot
abacusai/HellaSwag_DPO_FewShot

数据污染测试结果

使用https://github.com/swj0419/detect - pretrain - code - contamination/tree/master生成污染数据，以internlm2 - 20b - llama为参考模型。luxia - 21.4b - alignment - v1.2的测试结果如下：

模型	ARC	MMLU	TruthfulQA	GSM8K
luxia - 21.4b - alignment - v1.2	0.00	0.07	0.13	0.34

Open LLM Leaderboard评估结果

模型	ARC	HellaSwag	MMLU	TruthfulQA	Winogrande	GSM8K
luxia - 21.4b - alignment - v1.2	77.73	90.86	67.86	79.16	86.27	66.94

💻 使用示例

基础用法

# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
    "saltlux/luxia-21.4b-alignment-v1.2",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)