language:
-
zh
license: other
model_name: MythoMax L2 13B
base_model: Gryphe/MythoMax-L2-13b
inference: false
model_creator: Gryphe
model_type: llama
prompt_template: '```
{system_message}
指令:
{prompt}
(为角色扮演目的,我建议以下格式 - 在<你的名字>和<角色名>的对话中,写出<角色名>的下一条回复。仅写单条回复。)
回复:
'
quantized_by: TheBloke
MythoMax L2 13B - GPTQ
描述
此仓库包含Gryphe的MythoMax L2 13B的GPTQ模型文件。
提供了多种GPTQ参数组合;详情请参阅下面的“提供文件”部分,了解提供的选项、参数及创建它们所使用的软件。
可用仓库
提示模板: 自定义
{system_message}
### 指令:
{prompt}
(为角色扮演目的,我建议以下格式 - 在<你的名字>和<角色名>的对话中,写出<角色名>的下一条回复。仅写单条回复。)
### 回复:
许可
源模型的创建者将其许可列为other
,因此此量化使用了相同的许可。
由于此模型基于Llama 2,因此也受Meta Llama 2许可条款的约束,并额外包含了其许可文件。因此,应认为此模型声明为双重许可。我已联系Hugging Face以澄清双重许可事宜,但他们尚未有正式立场。若此情况发生变化,或Meta对此有任何反馈,我将相应更新此部分。
在此期间,任何关于许可的问题,特别是这两种许可如何交互的问题,应直接指向原始模型仓库:Gryphe的MythoMax L2 13B。
提供文件及GPTQ参数
提供了多种量化参数,以便您根据硬件和需求选择最佳选项。
每个独立的量化位于不同的分支。有关从不同分支获取的说明,请参阅下文。
所有最近的GPTQ文件均使用AutoGPTQ制作,非主分支中的所有文件也使用AutoGPTQ制作。主分支中2023年8月之前上传的文件使用GPTQ-for-LLaMa制作。
GPTQ参数说明
- 位数: 量化模型的位大小。
- GS: GPTQ组大小。数值越高,VRAM使用越少,但量化精度越低。"None"是最小可能值。
- 激活顺序: 真或假。也称为
desc_act
。真值会提高量化精度。某些GPTQ客户端在使用激活顺序加组大小的模型时曾有问题,但现已普遍解决。
- 阻尼%: 影响量化样本处理的GPTQ参数。默认为0.01,但0.1会略微提高精度。
- GPTQ数据集: 用于量化的数据集。使用更适合模型训练的数据集可以提高量化精度。请注意,GPTQ数据集与训练模型所用的数据集不同 - 有关训练数据集的详细信息,请参阅原始模型仓库。
- 序列长度: 用于量化的数据集序列长度。理想情况下应与模型序列长度相同。对于某些超长序列模型(16+K),可能需要使用较低的序列长度。请注意,较低的序列长度不会限制量化模型的序列长度。它仅影响较长推理序列的量化精度。
- ExLlama兼容性: 此文件是否可以使用ExLlama加载,目前仅支持4位的Llama模型。
如何从分支下载
- 在text-generation-webui中,您可以在下载名称末尾添加
:branch
,例如TheBloke/MythoMax-L2-13B-GPTQ:main
- 使用Git,您可以克隆分支:
git clone --single-branch --branch main https://huggingface.co/TheBloke/MythoMax-L2-13B-GPTQ
- 在Python Transformers代码中,分支是
revision
参数;见下文。
请确保您使用的是最新版本的text-generation-webui。
强烈建议使用text-generation-webui的一键安装程序,除非您确定知道如何进行手动安装。
- 点击模型标签页。
- 在下载自定义模型或LoRA下,输入
TheBloke/MythoMax-L2-13B-GPTQ
。
- 要从特定分支下载,例如输入
TheBloke/MythoMax-L2-13B-GPTQ:main
- 有关每个选项的分支列表,请参阅上面的“提供文件”部分。
- 点击下载。
- 模型将开始下载。完成后会显示“完成”。
- 在左上角,点击模型旁边的刷新图标。
- 在模型下拉菜单中,选择您刚刚下载的模型:
MythoMax-L2-13B-GPTQ
- 模型将自动加载,现在可以使用了!
- 如果您想要任何自定义设置,设置后点击保存此模型的设置,然后在右上角点击重新加载模型。
- 注意:您不需要也不应再手动设置GPTQ参数。这些参数会自动从文件
quantize_config.json
中设置。
- 准备就绪后,点击文本生成标签页并输入提示开始!
如何从Python代码中使用此GPTQ模型
安装必要包
需要:Transformers 4.32.0或更高版本,Optimum 1.12.0或更高版本,以及AutoGPTQ 0.4.2或更高版本。
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 如果使用CUDA 11.7,请用cu117
如果使用预构建的wheel安装AutoGPTQ有问题,请从源码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
仅CodeLlama模型:必须使用Transformers 4.33.