语言:
-
英文
许可证: llama2
标签:
-
facebook
-
meta
-
pytorch
-
llama
-
llama-2
模型名称: Llama 2 13B Chat
基础模型: meta-llama/Llama-2-13b-chat-hf
推理: false
模型创建者: Meta Llama 2
模型类型: llama
流水线标签: 文本生成
提示模板: '[INST] <>
你是一个乐于助人、尊重他人且诚实的助手。始终尽可能提供有帮助的回答,同时确保安全。你的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保你的回应在社会上是公正且积极的。如果问题没有意义,或事实不连贯,请解释原因而不是回答不正确的内容。如果你不知道问题的答案,请不要分享虚假信息。
<>
{prompt}[/INST]
'
量化者: TheBloke
Llama 2 13B Chat - GPTQ
描述
此仓库包含Meta的Llama 2 13B-chat的GPTQ模型文件。
提供了多种GPTQ参数组合;详见下方“提供的文件”部分,了解提供的选项、参数及用于创建它们的软件。
可用仓库
提示模板: Llama-2-Chat
[INST] <<SYS>>
你是一个乐于助人、尊重他人且诚实的助手。始终尽可能提供有帮助的回答,同时确保安全。你的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保你的回应在社会上是公正且积极的。如果问题没有意义,或事实不连贯,请解释原因而不是回答不正确的内容。如果你不知道问题的答案,请不要分享虚假信息。
<</SYS>>
{prompt}[/INST]
提供的文件和GPTQ参数
提供了多种量化参数,以便您根据硬件和需求选择最佳选项。
每个独立的量化位于不同的分支中。请参阅下方从不同分支获取的说明。
所有最近的GPTQ文件均使用AutoGPTQ创建,非主分支中的所有文件也使用AutoGPTQ创建。主分支中2023年8月之前上传的文件使用GPTQ-for-LLaMa创建。
GPTQ参数说明
- 位数: 量化模型的位大小。
- GS: GPTQ组大小。较高的数值使用较少的VRAM,但量化精度较低。“None”是最低可能值。
- 激活顺序: 真或假。也称为
desc_act
。True会提高量化精度。某些GPTQ客户端在使用激活顺序加组大小时曾遇到问题,但通常现已解决。
- 阻尼百分比: 影响量化样本处理的GPTQ参数。默认为0.01,但0.1会略微提高精度。
- GPTQ数据集: 用于量化的数据集。使用更符合模型训练的数据集可以提高量化精度。请注意,GPTQ数据集与用于训练模型的数据集不同——请参阅原始模型仓库了解训练数据集的详细信息。
- 序列长度: 用于量化的数据集序列长度。理想情况下应与模型序列长度相同。对于某些超长序列模型(16+K),可能需要使用较低的序列长度。请注意,较低的序列长度不会限制量化模型的序列长度。它仅影响较长推理序列的量化精度。
- ExLlama兼容性: 此文件是否可以使用ExLlama加载,目前仅支持4位的Llama模型。
如何从分支下载
- 在text-generation-webui中,您可以在下载名称末尾添加
:branch
,例如TheBloke/Llama-2-13B-chat-GPTQ:main
- 使用Git,您可以克隆一个分支:
git clone --single-branch --branch main https://huggingface.co/TheBloke/Llama-2-13B-chat-GPTQ
- 在Python Transformers代码中,分支是
revision
参数;见下文。
请确保您使用的是最新版本的text-generation-webui。
强烈建议使用text-generation-webui的一键安装程序,除非您确定知道如何进行手动安装。
- 点击模型标签。
- 在下载自定义模型或LoRA下,输入
TheBloke/Llama-2-13B-chat-GPTQ
。
- 要从特定分支下载,请输入例如
TheBloke/Llama-2-13B-chat-GPTQ:main
- 有关每个选项的分支列表,请参阅上方的“提供的文件”部分。
- 点击下载。
- 模型将开始下载。完成后会显示“完成”。
- 在左上角,点击刷新图标旁边的模型。
- 在模型下拉菜单中,选择您刚刚下载的模型:
Llama-2-13B-chat-GPTQ
- 模型将自动加载,现在可以使用了!
- 如果您想要任何自定义设置,设置后点击保存此模型的设置,然后点击右上角的重新加载模型。