🚀 Solar Pro Preview:单GPU上最智能的大语言模型
Solar Pro Preview是一款先进的大语言模型(LLM),拥有220亿参数,专为单GPU运行而设计。与参数少于300亿的LLM相比,它表现卓越,性能可与参数是其3倍以上的模型(如700亿参数的Llama 3.1)相媲美。
🚀 快速开始
Solar Pro Preview是一个经过指令调优的语言模型,专为遵循指令和进行对话任务而设计。
聊天模板
作为经过指令调优的模型,Solar Pro Preview使用ChatML模板,以在对话和遵循指令任务中实现最佳性能。这种方法与模型的训练数据相匹配,可能会产生更准确和相关的响应。例如,使用ChatML模板格式化的问题如下,模型会在<|im_start|>assistant
之后生成答案。请注意,Solar Pro Preview目前不支持系统提示,此功能将在正式版本中提供。
<|im_start|>user
Please, introduce yourself.<|im_end|>
<|im_start|>assistant
文本生成
以下是一个示例推理代码,详细展示了如何加载模型、应用聊天模板以及生成模型答案。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("upstage/solar-pro-preview-instruct")
model = AutoModelForCausalLM.from_pretrained(
"upstage/solar-pro-preview-instruct",
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
messages = [
{"role": "user", "content": "Please, introduce yourself."},
]
prompt = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to(model.device)
outputs = model.generate(prompt, max_new_tokens=512)
print(tokenizer.decode(outputs[0]))
Solar Pro Preview也可在Upstage Console中作为API使用,我们还提供了其他易于使用的方法。如果您想了解这些选项,请访问我们的博客页面。
✨ 主要特性
- 单GPU运行:Solar Pro Preview专为单GPU运行而设计,拥有220亿参数,能够在单GPU上高效运行。
- 卓越性能:与参数少于300亿的LLM相比,Solar Pro Preview表现卓越,性能可与参数是其3倍以上的模型相媲美。
- 精心训练:使用增强版的深度扩展方法开发,精心策划的训练策略和数据集显著提升了模型性能。
📚 详细文档
模型概述
我们推出了Solar Pro Preview,这是一款先进的大语言模型(LLM),拥有220亿参数,旨在适配单GPU。与参数少于300亿的LLM相比,Solar Pro Preview表现卓越,其性能可与参数是其3倍以上的模型(如700亿参数的Llama 3.1)相媲美。
Solar Pro Preview是使用我们之前深度扩展方法的增强版开发的,该方法将一个140亿参数的Phi - 3 - medium模型扩展到220亿参数,旨在在拥有80GB VRAM的GPU上运行。我们精心策划的训练策略和数据集显著提升了Phi - 3 - medium的性能,特别是在MMLU - Pro和IFEval基准测试中,这两个基准测试在评估模型的知识和遵循指令能力方面备受认可。
Solar Pro Preview是官方Solar Pro的预发布版本,在语言覆盖范围上存在限制,最大上下文长度为4K。然而,我们相信Solar Pro Preview不仅是一个高效且功能强大的模型,还有潜力进一步扩展以覆盖更多语言和功能。Solar Pro的官方版本将于2024年11月发布,届时将支持英语以外的更多语言,并拥有更长的上下文窗口。要了解最新更新,请注册我们的邮件列表。如果您对模型有任何反馈或问题,请访问我们的模型讨论板。
评估
Solar Pro Preview在多种基准测试中进行了评估。
指标 |
Solar-pro-preview |
Phi-3-medium-4K-instruct |
Phi-3.5-MoE-instruct |
Gemma 2 27B IT |
Llama-3.1-8B-instruct |
Llama-3.1-70B-instruct |
发布日期 |
2024.09.08 |
2024.05.02 |
2024.08.20 |
2024.06.25 |
2024.06.18 |
2024.06.16 |
模型大小 |
22B |
14B |
41.9B (6.6B) |
27B |
8B |
70B |
许可证 |
MIT |
MIT |
MIT |
gemma |
llama3.1 |
llama3.1 |
MMLU |
79.14 |
78.02 |
78.66 |
76.13 |
68.25 |
82.09 |
MMLU Pro |
52.11 |
47.51 |
46.99 |
45.68 |
37.88 |
53.01 |
IFEval |
84.37 |
64.37 |
69.15 |
75.36 |
77.40 |
84.13 |
ARC-C |
68.86 |
66.55 |
68.34 |
74.06 |
60.24 |
70.39 |
GPQA |
36.38 |
35.78 |
34.38 |
36.38 |
35.26 |
41.06 |
HellaSwag |
86.36 |
85.68 |
85.97 |
86.02 |
80.08 |
86.42 |
EQBench |
77.91 |
76.78 |
77.22 |
80.32 |
65.80 |
82.52 |
BigBench Hard |
67.31 |
63.09 |
62.58 |
64.88 |
51.06 |
69.54 |
MUSR |
45.85 |
42.28 |
46.79 |
45.67 |
29.68 |
47.22 |
GSM8K |
89.69 |
84.76 |
82.26 |
62.85 |
75.97 |
92.12 |
MBPP |
61.59 |
60.27 |
N/A (*) |
63.08 |
52.20 |
65.51 |
(*) 由于该模型倾向于生成聊天模板,因此无法准确确定分数。
评估协议
为了便于重现我们的评估结果,我们列出了以下使用的评估工具和设置。所有评估均在NVIDIA DGX H100上进行。
由于不同的批量大小和实验环境(如GPU类型),结果可能会略有不同。
📄 许可证
本项目采用MIT许可证,详情请见许可证链接。
🔗 联系我们
如果您对模型有任何问题和建议,请访问讨论板。
了解更多信息:
也可以尝试以下内容: