许可协议:llama2
模型名称:Xwin-LM 13B V0.1
基础模型:Xwin-LM/Xwin-LM-13B-V0.1
推理支持:否
模型创建者:Xwin-LM
模型类型:llama
提示模板:'一段好奇用户与人工智能助手之间的对话。助手以专业、详尽且礼貌的方式回答用户问题。用户: {prompt} 助手:'
量化支持:TheBloke
Xwin-LM 13B V0.1 - GPTQ
简介
本仓库包含Xwin-LM的Xwin-LM 13B V0.1的GPTQ模型文件。
提供多种GPTQ参数组合;详见下方“提供文件”部分,了解各选项的详细参数及生成工具。
可用仓库
提示模板:Vicuna
一段好奇用户与人工智能助手之间的对话。助手以专业、详尽且礼貌的方式回答用户问题。用户: {prompt} 助手:
提供文件及GPTQ参数
提供多种量化参数,便于根据硬件需求选择。
各量化分支独立,切换分支下载方式见下文。
所有近期GPTQ文件均通过AutoGPTQ生成,非主分支文件亦采用AutoGPTQ。2023年8月前主分支上传的文件使用GPTQ-for-LLaMa生成。
GPTQ参数说明
- 位数:量化模型的比特数。
- GS:GPTQ分组大小。数值越高显存占用越低,但量化精度下降。"None"为最低值。
- Act Order:是否启用激活顺序(desc_act)。True可提升量化精度。部分GPTQ客户端曾对此有兼容性问题,现已基本解决。
- Damp %:GPTQ采样处理参数,默认0.01,0.1可略微提升精度。
- GPTQ数据集:量化校准数据集。使用与模型训练更匹配的数据集可提升精度。注意此数据集不同于训练数据。
- 序列长度:量化所用序列长度。建议与模型序列长度一致。超长序列模型(16K+)可能需要调整。
- ExLlama兼容性:是否兼容ExLlama(目前仅支持4位Llama模型)。
下载指南(含分支下载)
通过text-generation-webui
下载主分支模型:在"Download model"框中输入TheBloke/Xwin-LM-13B-V0.1-GPTQ
。
下载其他分支:在下载名称后添加:branchname
,例如TheBloke/Xwin-LM-13B-V0.1-GPTQ:gptq-4bit-32g-actorder_True
。
通过命令行
建议使用huggingface-hub
库:
pip3 install huggingface-hub
下载主分支至Xwin-LM-13B-V0.1-GPTQ
文件夹:
mkdir Xwin-LM-13B-V0.1-GPTQ
huggingface-cli download TheBloke/Xwin-LM-13B-V0.1-GPTQ --local-dir Xwin-LM-13B-V0.1-GPTQ --local-dir-use-symlinks False
下载指定分支:
mkdir Xwin-LM-13B-V0.1-GPTQ
huggingface-cli download TheBloke/Xwin-LM-13B-V0.1-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Xwin-LM-13B-V0.1-GPTQ --local-dir-use-symlinks False
高级huggingface-cli用法
若移除--local-dir-use-symlinks False
参数,文件将存储于HuggingFace缓存目录(Linux默认位置:~/.cache/huggingface
),并通过符号链接指向指定目录。此举支持断点续传与多位置克隆,但文件隐藏于缓存目录,不易管理。
可通过HF_HOME
环境变量或--cache-dir
参数修改缓存位置。
更多下载指南详见:HF -> Hub Python库 -> 文件下载 -> CLI下载。
高速网络(≥1Gbit/s)用户可安装hf_transfer
加速:
pip3 install hf_transfer
设置环境变量:
mkdir Xwin-LM-13B-V0.1-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Xwin-LM-13B-V0.1-GPTQ --local-dir Xwin-LM-13B-V0.1-GPTQ --local-dir-use-symlinks False
Windows用户:需先运行set HF_HUB_ENABLE_HF_TRANSFER=1
。
通过git(不推荐)
克隆特定分支:
git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/Xwin-LM-13B-V0.1-GPTQ
注意:Git方式下载速度慢且占用双倍存储空间(文件实际存储于.git目录)。
请确保使用最新版text-generation-webui。
推荐使用一键安装包,除非熟悉手动安装流程。
- 点击Model选项卡
- 在Download custom model or LoRA处输入
TheBloke/Xwin-LM-13B-V0.1-GPTQ
- 指定分支下载示例:
TheBloke/Xwin-LM-13B-V0.1-GPTQ:gptq-4bit-32g-actorder_True
- 点击Download
- 下载完成后点击左上角刷新图标
- 在Model下拉菜单中选择已下载模型
- 模型加载完成后即可使用
- 如需自定义设置,调整后点击Save settings for this model,再点击Reload the Model
- 注意:无需手动设置GPTQ参数,这些参数已通过
quantize_config.json
自动配置
- 进入Text Generation选项卡开始对话
通过Python代码调用GPTQ模型
安装依赖
需安装:Transformers 4.33.0+、Optimum 1.12.0+、AutoGPTQ 0.4.2+
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # CUDA 11