模型简介
模型特点
模型能力
使用案例
🚀 Chronoboros 33B - GPTQ
Chronoboros 33B - GPTQ 是一个经过量化处理的模型,本仓库包含了该模型的 GPTQ 格式文件。它基于 Henk717 的 Chronoboros 33B 模型,提供了多种量化参数选项,以满足不同硬件和需求。
🚀 快速开始
从 Python 代码使用此 GPTQ 模型
安装必要的包
需要安装:Transformers 4.32.0 或更高版本、Optimum 1.12.0 或更高版本,以及 AutoGPTQ 0.4.2 或更高版本。
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 如果使用 CUDA 11.7,请使用 cu117
如果使用预构建的轮子安装 AutoGPTQ 时遇到问题,可以从源代码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
仅适用于 CodeLlama 模型:必须使用 Transformers 4.33.0 或更高版本
如果在阅读本文时 4.33.0 尚未发布,则需要从源代码安装 Transformers:
pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git
使用以下代码
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Chronoboros-33B-GPTQ"
# 要使用不同的分支,请更改 revision
# 例如:revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用 transformers 的 pipeline 进行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
在 text-generation-webui 中轻松下载和使用此模型
请确保使用的是 text-generation-webui 的最新版本。强烈建议使用 text-generation-webui 的一键安装程序,除非你确定自己知道如何手动安装。
- 点击 Model tab。
- 在 Download custom model or LoRA 下,输入
TheBloke/Chronoboros-33B-GPTQ
。- 若要从特定分支下载,例如输入
TheBloke/Chronoboros-33B-GPTQ:main
。 - 请参阅上面的“提供的文件”以获取每个选项的分支列表。
- 若要从特定分支下载,例如输入
- 点击 Download。
- 模型将开始下载。下载完成后会显示“Done”。
- 在左上角,点击 Model 旁边的刷新图标。
- 在 Model 下拉菜单中,选择你刚刚下载的模型:
Chronoboros-33B-GPTQ
。 - 模型将自动加载,现在可以使用了!
- 如果你需要任何自定义设置,请进行设置,然后点击右上角的 Save settings for this model,接着点击 Reload the Model。
- 注意,你不再需要也不应该手动设置 GPTQ 参数。这些参数会从文件
quantize_config.json
中自动设置。
- 注意,你不再需要也不应该手动设置 GPTQ 参数。这些参数会从文件
- 准备好后,点击 Text Generation tab 并输入提示以开始!
✨ 主要特性
- 本仓库包含了 Henk717 的 Chronoboros 33B 的 GPTQ 模型文件。
- 提供了多种 GPTQ 参数排列,可根据硬件和需求选择最佳参数。
- 支持多种推理方式,包括 GPU 推理和 CPU+GPU 推理。
📦 安装指南
从分支下载
- 在 text-generation-webui 中,可以在下载名称末尾添加
:branch
,例如TheBloke/Chronoboros-33B-GPTQ:main
。 - 使用 Git 时,可以使用以下命令克隆分支:
git clone --single-branch --branch main https://huggingface.co/TheBloke/Chronoboros-33B-GPTQ
- 在 Python Transformers 代码中,分支是
revision
参数。
📚 详细文档
描述
本仓库包含了 Henk717 的 Chronoboros 33B 的 GPTQ 模型文件。提供了多种 GPTQ 参数排列,具体选项、参数以及创建它们所使用的软件详情,请参阅下面的“提供的文件”。
可用的仓库
- 用于 GPU 推理的 AWQ 模型。
- 用于 GPU 推理的 GPTQ 模型,有多种量化参数选项。
- 用于 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型。
- Henky!! 原始的未量化 fp16 模型(pytorch 格式),用于 GPU 推理和进一步转换。
提示模板:Alpaca
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
提供的文件和 GPTQ 参数
提供了多种量化参数,以便你根据硬件和需求选择最佳参数。每个单独的量化版本位于不同的分支中。以下是从不同分支获取文件的说明。
所有最近的 GPTQ 文件都是使用 AutoGPTQ 创建的,非主分支中的所有文件都是使用 AutoGPTQ 创建的。main
分支中 2023 年 8 月之前上传的文件是使用 GPTQ-for-LLaMa 创建的。
GPTQ 参数说明
- Bits:量化模型的位大小。
- GS:GPTQ 组大小。较高的数字使用较少的 VRAM,但量化精度较低。“None” 是最低可能值。
- Act Order:真或假。也称为
desc_act
。真会导致更好的量化精度。一些 GPTQ 客户端在使用 Act Order 加组大小的模型时遇到过问题,但现在这个问题通常已解决。 - Damp %:一个影响量化样本处理方式的 GPTQ 参数。默认值为 0.01,但 0.1 会导致稍好的精度。
- GPTQ 数据集:用于量化的数据集。使用与模型训练更合适的数据集可以提高量化精度。请注意,GPTQ 数据集与用于训练模型的数据集不同 - 请参阅原始模型仓库以获取训练数据集的详细信息。
- 序列长度:用于量化的数据集序列的长度。理想情况下,这与模型序列长度相同。对于一些非常长序列的模型(16+K),可能需要使用较低的序列长度。请注意,较低的序列长度不会限制量化模型的序列长度。它只会影响较长推理序列的量化精度。
- ExLlama 兼容性:此文件是否可以使用 ExLlama 加载,目前 ExLlama 仅支持 4 位的 Llama 模型。
分支 | 位 | GS | Act Order | Damp % | GPTQ 数据集 | 序列长度 | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 无 | 是 | 0.01 | wikitext | 2048 | 16.94 GB | 是 | 4 位,带有 Act Order。无组大小,以降低 VRAM 需求。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.01 | wikitext | 2048 | 19.44 GB | 是 | 4 位,带有 Act Order 和组大小 32g。提供最高可能的推理质量,但使用最大的 VRAM。 |
gptq-4bit-64g-actorder_True | 4 | 64 | 是 | 0.01 | wikitext | 2048 | 18.18 GB | 是 | 4 位,带有 Act Order 和组大小 64g。使用的 VRAM 比 32g 少,但精度稍低。 |
gptq-4bit-128g-actorder_True | 4 | 128 | 是 | 0.01 | wikitext | 2048 | 17.55 GB | 是 | 4 位,带有 Act Order 和组大小 128g。使用的 VRAM 比 64g 更少,但精度稍低。 |
gptq-8bit--1g-actorder_True | 8 | 无 | 是 | 0.01 | wikitext | 2048 | 32.99 GB | 否 | 8 位,带有 Act Order。无组大小,以降低 VRAM 需求。 |
gptq-8bit-128g-actorder_False | 8 | 128 | 否 | 0.01 | wikitext | 2048 | 33.73 GB | 否 | 8 位,带有组大小 128g 以提高推理质量,不使用 Act Order 以提高 AutoGPTQ 速度。 |
gptq-3bit--1g-actorder_True | 3 | 无 | 是 | 0.01 | wikitext | 2048 | 12.92 GB | 否 | 3 位,带有 Act Order 且无组大小。最低的 VRAM 需求。质量可能比 3 位 128g 低。 |
gptq-3bit-128g-actorder_False | 3 | 128 | 否 | 0.01 | wikitext | 2048 | 13.51 GB | 否 | 3 位,带有组大小 128g 但无 Act Order。VRAM 需求比 3 位 None 稍高。 |
兼容性
提供的文件经过测试,可与 AutoGPTQ 一起使用,包括通过 Transformers 和直接使用 AutoGPTQ。它们也应该与 Occ4m 的 GPTQ-for-LLaMa 分支 一起使用。 ExLlama 与 4 位的 Llama 模型兼容。请参阅上面的“提供的文件”表以获取每个文件的兼容性信息。 Huggingface 文本生成推理 (TGI) 与所有 GPTQ 模型兼容。
原始模型卡片:Henk717 的 Chronoboros 33B
此模型是 Airoboros-33B-1.4 和 Chronos-33B 之间 50/50 平均权重合并的结果。 经过长时间测试,我们得出结论,虽然此合并模型非常灵活,能够完成许多不同的任务,但它的回答变化太大,不够可靠。 因此,该模型需要一些运气才能获得好的结果,因此不建议寻求一致体验的人或对基于预期的成瘾敏感的人使用。 如果你想要此模型的更稳定改进版本,请查看我的 Airochronos-33B 合并模型。
📄 许可证
许可证信息:其他
🔗 相关链接
- 模型创建者:Henky!!
- 原始模型:Chronoboros 33B
- Discord 服务器:TheBloke AI 的 Discord 服务器
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
🙏 感谢与贡献
感谢 chirper.ai 团队! 感谢来自 gpus.llm-utils.org 的 Clay! 很多人问是否可以贡献。我喜欢提供模型并帮助他人,也希望能够花更多时间做这些事情,以及开展新的项目,如微调/训练。 如果你有能力并愿意贡献,将不胜感激,这将帮助我继续提供更多模型,并开始新的 AI 项目。 捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间,以及其他福利。
特别感谢:Aemon Algiz。
Patreon 特别提及:Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann - Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov
感谢所有慷慨的赞助者和捐赠者! 再次感谢 a16z 的慷慨资助。



