模型简介
模型特点
模型能力
使用案例
base_model: NeverSleep/Nethena-20B inference: false license: cc-by-nc-4.0 model_creator: NeverSleep model_name: Nethena 20B model_type: llama prompt_template: '以下是描述任务的指令。请撰写一个恰当完成请求的回应。
指令:
{prompt}
回应:
' quantized_by: TheBloke

TheBloke的LLM工作得到了安德森·霍洛维茨(a16z)慷慨资助的支持
Nethena 20B - GPTQ
- 模型创建者:NeverSleep
- 原始模型:Nethena 20B
模型描述
本仓库包含NeverSleep的Nethena 20B的GPTQ模型文件。
提供了多种GPTQ参数组合;详情请参阅“提供的文件”部分,了解各选项的参数及创建所使用的软件。
这些文件使用了由Massed Compute慷慨提供的硬件进行量化。
可用仓库
- 用于GPU推理的AWQ模型
- 用于GPU推理的GPTQ模型,提供多种量化参数选项
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- NeverSleep的原始未量化fp16模型,以pytorch格式提供,用于GPU推理及进一步转换
提示模板:Alpaca
以下是描述任务的指令。请撰写一个恰当完成请求的回应。
### 指令:
{prompt}
### 回应:
许可
源模型的创建者将其许可列为cc-by-nc-4.0
,因此本量化使用了相同的许可。
由于此模型基于Llama 2,它也受Meta Llama 2许可条款的约束,并额外包含了相关许可文件。因此,应视为同时受这两项许可的约束。我已联系Hugging Face以澄清双重许可事宜,但他们尚未有官方立场。若此情况发生变化,或Meta对此有任何反馈,我将相应更新此部分。
在此期间,任何关于许可的问题,特别是这两项许可如何交互的问题,应直接指向原始模型仓库:NeverSleep的Nethena 20B。
已知兼容的客户端/服务器
这些GPTQ模型已知可在以下推理服务器/WebUI中工作。
这可能不是完整列表;如果您知道其他兼容的客户端/服务器,请告知我!
提供的文件及GPTQ参数
提供了多种量化参数,以便您根据硬件和需求选择最适合的选项。
每个独立的量化分支位于不同的分支中。请参阅以下说明,了解如何从不同分支下载。
大多数GPTQ文件使用AutoGPTQ创建。Mistral模型目前使用Transformers创建。
GPTQ参数说明
- Bits:量化模型的位数。
- GS:GPTQ组大小。数值越高,VRAM使用越少,但量化精度越低。“None”为最低可能值。
- Act Order:True或False。也称为
desc_act
。True可提高量化精度。某些GPTQ客户端在使用Act Order加Group Size时曾遇到问题,但通常现已解决。 - Damp %:影响量化样本处理的GPTQ参数。默认为0.01,但0.1可略微提高精度。
- GPTQ数据集:量化过程中使用的校准数据集。使用更符合模型训练的数据集可提高量化精度。请注意,GPTQ校准数据集与训练模型所用的数据集不同——详情请参阅原始模型仓库。
- 序列长度:用于量化的数据集序列长度。理想情况下应与模型序列长度相同。对于某些超长序列模型(16K以上),可能需要使用较短的序列长度。请注意,较短的序列长度不会限制量化模型的序列长度,仅影响较长推理序列的量化精度。
- ExLlama兼容性:此文件是否可使用ExLlama加载,目前仅支持4位的Llama和Mistral模型。
分支 | Bits | GS | Act Order | Damp % | GPTQ数据集 | 序列长度 | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | None | Yes | 0.1 | wikitext | 4096 | 10.52 GB | Yes | 4位,带Act Order。无组大小,以降低VRAM需求。 |
gptq-4bit-128g-actorder_True | 4 | 128 | Yes | 0.1 | wikitext | 4096 | 10.89 GB | Yes | 4位,带Act Order和组大小128g。比64g使用更少VRAM,但精度略低。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 4096 | 12.04 GB | Yes | 4位,带Act Order和组大小32g。提供最高推理质量,VRAM使用最大。 |
gptq-3bit-128g-actorder_True | 3 | 128 | Yes | 0.1 | wikitext | 4096 | 8.41 GB | No | 3位,带组大小128g和act-order。质量高于128g-False。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 4096 | 20.35 GB | No | 8位,带Act Order。无组大小,以降低VRAM需求。 |
gptq-3bit-32g-actorder_True | 3 | 32 | Yes | 0.1 | wikitext | 4096 | 9.51 GB | No | 3位,带组大小64g和act-order。最高质量的3位选项。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 4096 | 20.80 GB | No | 8位,带组大小128g以提高推理质量,带Act Order以进一步提高精度。 |
如何下载,包括从分支下载
在text-generation-webui中
要从main
分支下载,在“下载模型”框中输入TheBloke/Nethena-20B-GPTQ
。
要从其他分支下载,在下载名称后添加:branchname
,例如TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True
从命令行
建议使用huggingface-hub
Python库:
pip3 install huggingface-hub
要将main
分支下载到名为Nethena-20B-GPTQ
的文件夹:
mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False
要从不同分支下载,添加--revision
参数:
mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False
更高级的huggingface-cli下载用法
如果移除--local-dir-use-symlinks False
参数,文件将存储在Hugging Face的中心缓存目录中(Linux上默认位置为~/.cache/huggingface
),并在指定的--local-dir
中创建符号链接,指向缓存中的实际位置。这允许中断的下载恢复,并可以快速将仓库克隆到磁盘上的多个位置而无需再次下载。缺点是文件隐藏在缓存文件夹中,难以了解磁盘空间的使用情况,且在需要删除下载模型时清理不便。
缓存位置可通过HF_HOME
环境变量和/或huggingface-cli
的--cache-dir
参数更改。
有关使用huggingface-cli
下载的更多文档,请参阅:HF -> Hub Python Library -> Download files -> Download from the CLI。
要在快速连接(1Gbit/s或更高)上加速下载,安装hf_transfer
:
pip3 install hf_transfer
并设置环境变量HF_HUB_ENABLE_HF_TRANSFER
为1
:
mkdir Nethena-20B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Nethena-20B-GPTQ --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False
Windows命令行用户:可在下载命令前运行set HF_HUB_ENABLE_HF_TRANSFER=1
设置环境变量。
使用git
(不推荐)
要使用git
克隆特定分支,使用如下命令:
git clone --single-branch --branch gptq-4bit-128g-actorder_True https://huggingface.co/TheBloke/Nethena-20B-GPTQ
请注意,强烈不建议使用Git与HF仓库。它比使用huggingface-hub
慢得多,且会占用两倍的磁盘空间(因为它需要存储模型文件两次,一次在目标文件夹中,一次在.git
文件夹中作为blob)。
如何在text-generation-webui中轻松下载和使用此模型
请确保您使用的是最新版本的text-generation-webui。
强烈建议使用text-generation-webui的一键安装程序,除非您确定知道如何进行手动安装。
-
点击Model tab。
-
在Download custom model or LoRA下,输入
TheBloke/Nethena-20B-GPTQ
。- 要从特定分支下载,例如输入
TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True
- 各选项的分支列表请参阅“提供的文件”部分。
- 要从特定分支下载,例如输入
-
点击Download。
-
模型将开始下载。完成后会显示“Done”。
-
在左上角,点击刷新图标旁边的Model。
-
在Model下拉菜单中,选择您刚下载的模型:
Nethena-20B-GPTQ
-
模型将自动加载,现在可以使用了!
-
如需任何自定义设置,设置后点击Save settings for this model,然后点击右上角的Reload the Model。
- 注意,您不再需要也不应手动设置GPTQ参数。这些参数已从文件
quantize_config.json
中自动设置。
- 注意,您不再需要也不应手动设置GPTQ参数。这些参数已从文件
-
准备就绪后,点击Text Generation标签页,输入提示开始生成!
从Text Generation Inference (TGI)服务此模型
建议使用TGI版本1.1.0或更高。官方Docker容器为:ghcr.io/huggingface/text-generation-inference:1.1.0
示例Docker参数:
--model-id TheBloke/Nethena-20B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
与TGI交互的Python代码示例(需要huggingface-hub 0.17.0或更高):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''以下是描述任务的指令。请撰写一个恰当完成请求的回应。
### 指令:
{prompt}
### 回应:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
如何从Python代码中使用此GPTQ模型
安装必要的包
需要:Transformers 4.33.0或更高,Optimum 1.12.0或更高,以及AutoGPTQ 0.4.2或更高。
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 如果使用CUDA 11.7,请使用cu117
如果使用预构建的wheel安装AutoGPTQ时遇到问题,请从源代码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
然后可以使用以下代码
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Nethena-20B-GPTQ"
# 要使用不同分支,请更改revision
# 例如:revision="gptq-4bit-128g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''以下是描述任务的指令。请撰写一个恰当完成请求的回应。
### 指令:
{prompt}
### 回应:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用transformers的pipeline进行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
兼容性
提供的文件经测试可与Transformers一起使用。对于非Mistral模型,也可以直接使用AutoGPTQ。
ExLlama兼容4位的Llama和Mistral模型。各文件的兼容性请参阅“提供的文件”表。
客户端/服务器列表请参阅“已知兼容的客户端/服务器”部分。
Discord
如需进一步支持,以及关于这些模型和AI的讨论,请加入:
感谢及如何贡献
感谢chirper.ai团队!
感谢Clay来自gpus.llm-utils.org!
许多人询问是否可以贡献。我很高兴提供模型并帮助他人,并希望能够花更多时间在这上面,以及开展新的AI项目。
如果您有能力并愿意贡献,我将非常感激,并有助于我继续提供更多模型,并开始新的AI项目。
贡献者将获得优先支持,包括所有AI/LLM/模型问题的优先解答,访问私人Discord房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius
感谢所有慷慨的赞助者和贡献者!
再次感谢a16z的慷慨资助。
原始模型卡片:NeverSleep的Nethena 20B
此模型是IkariDev和Undi的合作成果!
Nethena-20B模型。使用Alpaca格式。适用于RP、ERP及一般用途。
如果我们结合所有最佳模型会发生什么?嗯..这就是圣杯:Echidna v0.3 + Athena v3 + Nete
此模型还有一个13b版本,您可以在此查看:这里。
[推荐设置 - 暂无设置(请在社区标签页中建议一些!)]
描述
此仓库包含Nethena-20B的fp16文件。
评分:
注意:我们已获得所有用户的许可上传他们的评分,我不会未经询问就截图随机评论!
暂无评分!
如果您希望您的评分出现在这里,请通过DC向我们发送消息,我们将在此处上传截图。DC名称是“ikaridev”和“undi”。
使用的模型+loras及配方
- NeverSleep/Echidna-13b-v0.3
- IkariDev/Athena-v3
- Undi95/Nete-13B
提示模板:Alpaca
以下是描述任务的指令。请撰写一个恰当完成请求的回应。
### 指令:
{prompt}
### 回应:
其他
Undi:如果您想支持我,可以在此进行。
IkariDev:请访问我的复古/neocities风格网站 kek


