标签:
- 量化
- 2比特
- 3比特
- 4比特
- 5比特
- 6比特
- 8比特
- GGUF格式
- transformers库
- safetensors格式
- mistral模型
- 文本生成
- 论文:2304.12244
- 论文:2306.08568
- 论文:2308.09583
- 许可证:Apache-2.0
- 兼容自动训练
- 兼容终端
- 文本生成推理
- 区域:美国
- 文本生成功能
模型名称: WizardLM-2-7B-GGUF
基础模型: microsoft/WizardLM-2-7B
推理支持: 否
模型创建者: 微软
管道标签: 文本生成
量化作者: MaziyarPanahi
模型描述
MaziyarPanahi/WizardLM-2-7B-GGUF包含microsoft/WizardLM-2-7B的GGUF格式模型文件。
提示词模板
{系统提示}
用户: {输入}
助手: </s>
或
一段好奇用户与人工智能助手之间的对话。助手会提供有用、详细且礼貌的回答。用户: 你好 助手: 您好。</s>
用户: {输入} 助手: </s>......
摘自原始说明文件
许可证: Apache-2.0
🏠 WizardLM-2发布博客
🤗 HF仓库 •🐱 Github仓库 • 🐦 推特 • 📃 [WizardLM论文] • 📃 [WizardCoder论文] • 📃 [WizardMath论文]
👋 加入我们的Discord社区
新闻 🔥🔥🔥 [2024/04/15]
我们推出并开源了WizardLM-2——下一代最先进的大语言模型,在复杂对话、多语言、推理和智能体任务上均有提升。新系列包含三个前沿模型:WizardLM-2 8x22B、WizardLM-2 70B和WizardLM-2 7B。
- WizardLM-2 8x22B是我们的旗舰模型,与领先的闭源模型相比展现出强劲竞争力,全面超越现有开源模型
- WizardLM-2 70B具备顶尖推理能力,是同尺寸模型中的首选
- WizardLM-2 7B速度最快,性能可媲美现有10倍规模的开源领先模型
详情请参阅我们的发布博客和即将发布的论文。
模型详情
模型能力
MT-Bench评估
采用lmsys提出的GPT-4自动评估框架。WizardLM-2 8x22B与最先进的闭源模型表现相当,7B和70B版本在各自规模中均为顶级表现。
人类偏好评估
在包含写作、编程、数学、推理、智能体和多语言的真实场景测试集中:
- 8x22B版本略逊于GPT-4-1106-preview,显著优于Command R Plus和GPT4-0314
- 70B版本优于GPT4-0613、Mistral-Large和Qwen1.5-72B-Chat
- 7B版本与Qwen1.5-32B-Chat相当,超越Qwen1.5-14B-Chat和Starling-LM-7B-beta
方法概述
我们构建了全AI驱动的合成训练系统,详情见博客。
使用说明
❗注意模型系统提示用法:
采用Vicuna格式,支持多轮对话。示例如下:
一段好奇用户与人工智能助手之间的对话。助手会提供有用、详细且礼貌的回答。用户: 你好 助手: 您好。</s>
用户: 你是谁? 助手: 我是WizardLM。</s>......
推理演示脚本
提供Github上的演示代码。
使用指南
感谢TheBloke提供的GGUF模型使用说明:
关于GGUF
GGUF是llama.cpp团队于2023年8月21日推出的新格式,替代不再支持的GGML格式。
支持的客户端
包括llama.cpp、text-generation-webui、KoboldCpp、GPT4All等(完整列表见原文)。
量化方法说明
提供Q2_K到Q6_K五种量化方案,详细比特率说明见原文。
下载方式
可通过LM Studio等客户端自动下载,或使用huggingface-hub命令行工具:
huggingface-cli download MaziyarPanahi/WizardLM-2-7B-GGUF WizardLM-2-7B.Q4_K_M.gguf
运行示例
llama.cpp基础命令:
./main -ngl 35 -m WizardLM-2-7B.Q4_K_M.gguf --color -c 32768 --temp 0.7
Python调用
安装llama-cpp-python库后:
from llama_cpp import Llama
llm = Llama(model_path="WizardLM-2-7B.Q4_K_M.gguf", n_gpu_layers=35)
完整文档参见llama-cpp-python文档。