snowflake-arctic-instruct开源大语言模型 - 4800亿参数免费可用，功能强大用途广

首页

Snowflake Arctic Instruct

由 Snowflake 开发

Arctic是由雪花AI研究团队开发的密集混合专家（MoE）架构大语言模型，具有4800亿参数，以Apache-2.0许可证开源。

大型语言模型

Transformers

开源协议:Apache-2.0 #混合专家模型 #企业级AI #高效推理

下载量 10.94k

发布时间 : 4/21/2024

模型简介

Arctic是一个高效的大语言模型，结合了密集Transformer和混合专家架构，适用于文本生成和代码生成任务。

模型特点

高效混合专家架构

结合密集Transformer与MoE架构，在推理时仅激活170亿参数，实现高效计算。

企业级开放模型

以Apache-2.0许可证完全开源，适合商业和研究用途。

量化支持

支持FP8和FP6量化，降低推理资源需求。

模型能力

文本生成

代码生成

数学问题求解

指令跟随

使用案例

企业应用

商业智能问答

用于构建企业知识问答系统

教育

数学问题求解

帮助学生解答数学方程式

如示例中展示的线性方程求解能力

🚀 雪花北极星模型（Snowflake Arctic）

雪花北极星（Snowflake Arctic）是一款由雪花人工智能研究团队从头开始预训练的密集混合专家（Dense-MoE）混合变压器架构模型。本项目提供了基础版本和指令微调版本的模型检查点，采用Apache-2.0许可证，可自由用于研究、原型开发和产品中。

🚀 快速开始

雪花北极星模型由雪花人工智能研究团队预训练，提供基础和指令微调两个版本的模型检查点。你可以通过以下链接获取模型：

有关雪花北极星的最新详细信息（包括教程等），请参考我们的GitHub仓库：

https://github.com/Snowflake-Labs/snowflake-arctic

你还可以通过 Streamlit应用进行实时演示体验。

✨ 主要特性

自由使用：基于Apache-2.0许可证发布，可自由用于研究、原型和产品。
丰富资源：博客文章提供了模型的详细信息和相关资源链接，如自定义MoE模型训练、高质量训练数据生成等。
多版本支持：提供基础版本和指令微调版本，满足不同场景需求。

📦 安装指南

安装依赖库

北极星模型目前通过transformers库的自定义代码功能支持，使用时需在AutoTokenizer和AutoModelForCausalLM调用中添加trust_remote_code=True。建议使用transformers 4.39及以上版本：

pip install transformers>=4.39.0

北极星模型还利用了DeepSpeed的多项功能，需要安装DeepSpeed 0.14.2或更高版本：

pip install deepspeed>=0.14.2

💻 使用示例

基础用法

由于模型规模较大，建议使用云服务提供商的单8xH100实例，如AWS p5.48xlarge、Azure ND96isr_H100_v5等。

以下是使用DeepSpeed提供的FP8量化进行推理的示例代码：

import os
# 启用hf_transfer以加快检查点下载
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from deepspeed.linear.config import QuantizationConfig

tokenizer = AutoTokenizer.from_pretrained(
    "Snowflake/snowflake-arctic-instruct",
    trust_remote_code=True
)
quant_config = QuantizationConfig(q_bits=8)

model = AutoModelForCausalLM.from_pretrained(
    "Snowflake/snowflake-arctic-instruct",
    trust_remote_code=True,
    low_cpu_mem_usage=True,
    device_map="auto",
    ds_quantization_config=quant_config,
    max_memory={i: "150GiB" for i in range(8)},
    torch_dtype=torch.bfloat16)


content = "5x + 35 = 7x - 60 + 10. Solve for x"
messages = [{"role": "user", "content": content}]
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to("cuda")

outputs = model.generate(input_ids=input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))

📚 详细文档

更多关于北极星模型的详细信息，包括架构、训练过程、数据等，请参考我们的博客文章 Snowflake Arctic: The Best LLM for Enterprise AI — Efficiently Intelligent, Truly Open 以及我们的系列手册 see our series of cookbooks。

🔧 技术细节

北极星模型结合了一个100亿参数的密集变压器模型和一个残差128x366亿参数的MoE MLP，总参数达到4800亿，活动参数为170亿，采用top-2门控机制选择。

📄 许可证

本项目采用Apache-2.0许可证。

模型信息

属性	详情
模型开发者	雪花人工智能研究团队
模型类型	密集混合专家（Dense-MoE）混合变压器架构
输入	仅接受文本输入
输出	生成文本和代码
模型发布日期	2024年4月24日
许可证	Apache-2.0