模型简介
模型特点
模型能力
使用案例
base_model: KoboldAI/LLaMA2-13B-Tiefighter inference: false license: llama2 model_creator: KoboldAI model_name: Llama2 13B Tiefighter model_type: llama prompt_template: "### 指令:\n{prompt}\n### 回复:\n" quantized_by: TheBloke

TheBloke的LLM工作得到了安德森·霍洛维茨(a16z)的慷慨资助
Llama2 13B Tiefighter - GPTQ
- 模型创建者:KoboldAI
- 原始模型:Llama2 13B Tiefighter
模型描述
本仓库包含KoboldAI的Llama2 13B Tiefighter的GPTQ模型文件。
提供了多种GPTQ参数组合;详情请参阅下方“提供的文件”部分,了解提供的选项、参数及创建它们所使用的软件。
可用仓库
- 用于GPU推理的AWQ模型
- 用于GPU推理的GPTQ模型,提供多种量化参数选项
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- KoboldAI的原始未量化fp16模型,PyTorch格式,适用于GPU推理及进一步转换
提示模板:Alpaca-Tiefighter
### 指令:
{prompt}
### 回复:
已知兼容的客户端/服务器
这些GPTQ模型已知与以下推理服务器/WebUI兼容:
提供的文件及GPTQ参数
提供了多种量化参数,以便您根据硬件和需求选择最适合的选项。
每种量化方案位于不同的分支中。请参阅下方说明,了解如何从不同分支下载。
大多数GPTQ文件使用AutoGPTQ创建。Mistral模型目前使用Transformers创建。
GPTQ参数说明
- Bits:量化模型的位数。
- GS:GPTQ组大小。数值越高,VRAM使用越少,但量化精度越低。"None"为最低可能值。
- Act Order:True或False。也称为
desc_act
。True可提高量化精度。某些GPTQ客户端曾对使用Act Order加Group Size的模型存在问题,但通常现已解决。 - Damp %:影响量化样本处理的GPTQ参数。默认为0.01,但0.1可略微提高精度。
- GPTQ数据集:量化期间使用的校准数据集。使用更符合模型训练的数据集可提高量化精度。注意,GPTQ校准数据集与训练模型所用的数据集不同——详情请参阅原始模型仓库。
- 序列长度:用于量化的数据集序列长度。理想情况下应与模型序列长度相同。对于某些超长序列模型(16K以上),可能需要使用较短的序列长度。注意,较短的序列长度不会限制量化模型的序列长度,仅影响较长推理序列的量化精度。
- ExLlama兼容性:此文件是否可与ExLlama加载,目前仅支持4位Llama模型。
分支 | Bits | GS | Act Order | Damp % | GPTQ数据集 | 序列长度 | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | 是 | 0.1 | wikitext | 4096 | 7.26 GB | 是 | 4位,带Act Order和组大小128g。比64g使用更少VRAM,但精度略低。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.1 | wikitext | 4096 | 8.00 GB | 是 | 4位,带Act Order和组大小32g。提供最高推理质量,VRAM使用最大。 |
gptq-8bit--1g-actorder_True | 8 | 无 | 是 | 0.1 | wikitext | 4096 | 13.36 GB | 否 | 8位,带Act Order。无组大小,降低VRAM需求。 |
gptq-8bit-128g-actorder_True | 8 | 128 | 是 | 0.1 | wikitext | 4096 | 13.65 GB | 否 | 8位,组大小128g提高推理质量,Act Order进一步提高精度。 |
gptq-8bit-32g-actorder_True | 8 | 32 | 是 | 0.1 | wikitext | 4096 | 14.54 GB | 否 | 8位,组大小32g加Act Order,提供最高推理质量。 |
gptq-4bit-64g-actorder_True | 4 | 64 | 是 | 0.1 | wikitext | 4096 | 7.51 GB | 是 | 4位,带Act Order和组大小64g。比32g使用更少VRAM,但精度略低。 |
如何下载,包括从分支下载
在text-generation-webui中
要从main
分支下载,在“下载模型”框中输入TheBloke/LLaMA2-13B-Tiefighter-GPTQ
。
要从其他分支下载,在下载名称后添加:branchname
,例如TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
从命令行
推荐使用huggingface-hub
Python库:
pip3 install huggingface-hub
将main
分支下载到名为LLaMA2-13B-Tiefighter-GPTQ
的文件夹:
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
要从不同分支下载,添加--revision
参数:
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
更高级的huggingface-cli下载用法
如果移除--local-dir-use-symlinks False
参数,文件将存储在Hugging Face中央缓存目录(Linux默认为~/.cache/huggingface
),并在指定--local-dir
创建指向缓存实际位置的符号链接。这允许中断下载后恢复,并快速克隆仓库到多个磁盘位置而不重复下载。缺点是文件隐藏在缓存文件夹中,难以直观了解磁盘使用情况,清理时也不方便。
可通过HF_HOME
环境变量或huggingface-cli
的--cache-dir
参数更改缓存位置。
有关huggingface-cli
下载的更多文档,请参阅:HF -> Hub Python库 -> 下载文件 -> 从CLI下载。
要在快速连接(1Gbit/s或更高)上加速下载,安装hf_transfer
:
pip3 install hf_transfer
并设置环境变量HF_HUB_ENABLE_HF_TRANSFER
为1
:
mkdir LLaMA2-13B-Tiefighter-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
Windows命令行用户:运行set HF_HUB_ENABLE_HF_TRANSFER=1
后再执行下载命令。
使用git
(不推荐)
要克隆特定分支,使用如下命令:
git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/LLaMA2-13B-Tiefighter-GPTQ
注意,使用Git与HF仓库强烈不推荐。速度远慢于huggingface-hub
,且会占用两倍磁盘空间(在目标文件夹和.git
文件夹中各存储一次模型文件)。
如何在text-generation-webui中轻松下载和使用此模型
请确保您使用的是最新版text-generation-webui。
强烈推荐使用text-generation-webui的一键安装程序,除非您确定能进行手动安装。
-
点击模型标签页。
-
在下载自定义模型或LoRA下,输入
TheBloke/LLaMA2-13B-Tiefighter-GPTQ
。- 要从特定分支下载,例如输入
TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
- 各选项的分支列表请参阅上方“提供的文件”部分。
- 要从特定分支下载,例如输入
-
点击下载。
-
模型开始下载。完成后显示“Done”。
-
左上角点击刷新图标旁的模型。
-
在模型下拉菜单中,选择刚下载的模型:
LLaMA2-13B-Tiefighter-GPTQ
-
模型自动加载,准备就绪!
-
如需自定义设置,设置后点击保存此模型的设置,再点击右上角重新加载模型。
- 注意,无需也不应再手动设置GPTQ参数。这些参数已从
quantize_config.json
自动设置。
- 注意,无需也不应再手动设置GPTQ参数。这些参数已从
-
准备就绪后,点击文本生成标签页,输入提示开始使用!
从Text Generation Inference (TGI)服务此模型
推荐使用TGI 1.1.0或更高版本。官方Docker容器为:ghcr.io/huggingface/text-generation-inference:1.1.0
示例Docker参数:
--model-id TheBloke/LLaMA2-13B-Tiefighter-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
与TGI交互的Python代码示例(需huggingface-hub 0.17.0或更高版本):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "告诉我关于AI的事"
prompt_template=f'''### 指令:
{prompt}
### 回复:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"模型输出:{response}")
如何从Python代码中使用此GPTQ模型
安装必要包
需要:Transformers 4.33.0或更高版本,Optimum 1.12.0或更高版本,以及AutoGPTQ 0.4.2或更高版本。
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 如使用CUDA 11.7,替换为cu117
如使用预构建轮子安装AutoGPTQ遇到问题,可从源码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
使用以下代码
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/LLaMA2-13B-Tiefighter-GPTQ"
# 如需使用不同分支,更改revision
# 例如:revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "告诉我关于AI的事"
prompt_template=f'''### 指令:
{prompt}
### 回复:
'''
print("\n\n*** 生成:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可使用transformers的pipeline进行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
兼容性
提供的文件经测试可与Transformers兼容。对于非Mistral模型,也可直接使用AutoGPTQ。
ExLlama兼容4位的Llama和Mistral模型。各文件兼容性请参阅上方“提供的文件”表格。
客户端/服务器列表请参阅“已知兼容的客户端/服务器”部分。
Discord
如需进一步支持,或讨论这些模型及AI相关话题,欢迎加入:
致谢及如何贡献
感谢chirper.ai团队!
感谢Clay来自gpus.llm-utils.org!
许多人询问如何贡献。我很高兴提供模型并帮助他人,希望能有更多时间投入其中,并开展新项目如微调/训练。
如您愿意贡献,我将不胜感激,并助我持续提供更多模型,开启新AI项目。
捐助者将获得优先支持,访问私人Discord房间及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, 준교 김, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon, terasurfer, Jeff Scroggin, James Bentley, Vadim, Gabriel Puliatti, Harry Royden McLaughlin, Sean Connelly, Dan Guido, Edmond Seymore, Alicia Loh, subjectnull, AzureBlack, Manuel Alberto Morcote, Thomas Belote, Lone Striker, Chris Smitley, Vitor Caleffi, Johann-Peter Hartmann, Clay Pascal, biorpg, Brandon Frisco, sidney chen, transmissions 11, Pedro Madruga, jinyuan sun, Ajan Kanaga, Emad Mostaque, Trenton Dambrowitz, Jonathan Leane, Iucharbius, usrbinkat, vamX, George Stoitzev, Luke Pendergrass, theTransient, Olakabola, Swaroop Kallakuri, Cap'n Zoog, Brandon Phillips, Michael Dempsey, Nikolai Manek, danny, Matthew Berman, Gabriel Tamborski, alfie_i, Raymond Fosdick, Tom X Nguyen, Raven Klaugh, LangChain4j, Magnesian, Illia Dulskyi, David Ziegler, Mano Prime, Luis Javier Navarrete Lozano, Erik Bjäreholt, 阿明, Nathan Dryer, Alex, Rainer Wilmers, zynix, TL, Joseph William Delisle, John Villwock, Nathan LeClaire, Willem Michiel, Joguhyik, GodLy, OG, Jeffrey Morgan, ReadyPlayerEmma, Tiffany J. Kim, Sebastain Graf, Spencer Kim, Michael Davis, webtim, Talal Aujan, knownsqashed, John Detwiler, Imad Khwaja, Deo Leter, Jerry Meng, Elijah Stavena, Rooh Singh, Pieter, SuperWojo, Alexandros Triantafyllidis, Stephen Murray, Ai Maven, ya boyyy, Enrico Ros, Ken Nordquist, Deep Realms, Nicholas, Spiking Neurons AB, Elle, Will Dee, Jack West, RoA, Luke @flexchar, Viktor Bowallius, Derek Yates, Subspace Studios, jjj, Toran Billups, Asp the Wyvern, Fen Risland, Ilya, NimbleBox.ai, Chadd, Nitin Borwankar, Emre, Mandus, Leonard Tan, Kalila, K, Trailburnt, S_X, Cory Kujawski
感谢所有慷慨的赞助者和捐助者!
再次感谢a16z的慷慨资助。
原始模型卡片:KoboldAI的Llama2 13B Tiefighter
LLaMA2-13B-Tiefighter
Tiefighter是一个通过合并两个不同的LoRA在现有成熟合并模型基础上实现的合并模型。 其制作步骤如下:
- 以Undi95/Xwin-MLewd-13B-V0.2为基础模型,这是一个成熟的合并模型,尽管名称暗示,该模型并无强烈NSFW倾向。
- 应用PocketDoc/Dans-RetroRodeo-13b LoRA,这是基于我们Skein模型的“选择你的冒险”数据集的微调。
- 应用此LoRA后,以5%比例与新模型PocketDoc/Dans-RetroRodeo-13b合并,以弱化新增的冒险倾向。
- 将结果作为新基础模型,应用Blackroot/Llama-2-13B-Storywriter-LORA,并重复相同操作,此次比例为10%。
这意味着本模型包含以下上游模型的成分(尽可能追溯):
- Undi95/Xwin-MLewd-13B-V0.2
- Undi95/ReMM-S-Light
- Undi95/CreativeEngine
- Brouz/Slerpeno
- elinas/chronos-13b-v2
- jondurbin/airoboros-l2-13b-2.1
- NousResearch/Nous-Hermes-Llama2-13b+nRuaif/Kimiko-v2
- CalderaAI/13B-Legerdemain-L2+lemonilia/limarp-llama2-v2
- KoboldAI/LLAMA2-13B-Holodeck-1
- NousResearch/Nous-Hermes-13b
- OpenAssistant/llama2-13b-orca-8k-3319
- ehartford/WizardLM-1.0-Uncensored-Llama2-13b
- Henk717/spring-dragon
- The-Face-Of-Goonery/Huginn-v3-13b(包含未公开模型版本,此处为推测)
- SuperCOT(未公开版本)
- elinas/chronos-13b-v2(推测版本)
- NousResearch/Nous-Hermes-Llama2-13b
- stabilityai/StableBeluga-13B(推测版本)
- zattio770/120-Days-of-LORA-v2-13B
- PygmalionAI/pygmalion-2-13b
- Undi95/Storytelling-v1-13B-lora
- TokenBender/sakhi_13B_roleplayer_NSFW_chat_adapter
- nRuaif/Kimiko-v2-13B
- The-Face-Of-Goonery/Huginn-13b-FP16
- "多种不同模型,如hermes、beluga、airoboros、chronos.. limarp"
- lemonilia/LimaRP-Llama2-13B-v3-EXPERIMENT
- Xwin-LM/Xwin-LM-13B-V0.2
- Undi95/ReMM-S-Light
- PocketDoc/Dans-RetroRodeo-13b
- Blackroot/Llama-2-13B-Storywriter-LORA
尽管可能无法完全追溯每个参与的LoRA或模型,我们要感谢所有上游创作者使这个优秀模型成为可能! 正是你们的精心调校让AI生态系统蓬勃发展,没有你们的努力,这样的模型将无法实现。
使用指南
此模型擅长创意任务,给予其即兴发挥空间通常比堆砌细节能获得更好效果。
故事创作
支持传统方式的故事创作,直接粘贴您的故事并继续写作。可选使用记忆中的指令或作者笔记引导故事方向。
按需生成故事
要按需生成故事,可使用类似“写一篇关于X的小说,使用章节和对话”的指令(测试于Alpaca格式)。生成格式可能因模型选择而异,可按示例编写需求或自行开头让模型跟随您的风格。如模型表现不佳,多次尝试也有帮助。
聊天机器人及角色扮演
此模型已通过多种聊天形式测试,测试者发现通常“少即是多”,模型擅长即兴发挥。避免用段落细节淹没模型,先保持简洁,观察模型自行理解角色的能力。对于13B模型,代码格式化角色或描述对话对象的指令提示比粘贴背景段落更有效。
例如,在常规聊天模式的记忆中可以放置:
### 指令:
生成Alice和Henk讨论语言模型的对话。
在此对话中,Henk兴奋地向Alice介绍Tiefigther。
### 回复:
由于模型合并了多种模型,应支持广泛的指令格式或纯聊天模式。如有偏好格式可尝试,否则推荐使用常规聊天模式或Alpaca格式。
指令提示
此模型包含多种指令风格的模型,测试时我们使用Alpaca格式。如偏好其他格式,很可能也适用。
测试中发现某些情况下冒险数据可能泄露,可尝试使用>作为用户命令前缀缓解,但可能增强虚构倾向。
请注意,虽然此模型可作为事实性指令模型使用,但重点在于虚构。模型提供的信息可能是编造的。
冒险与冒险游戏
此模型包含与KoboldAI Skein模型相同冒险数据集训练的LoRA。冒险最佳方式是对世界和目标进行简短介绍,并使用>前缀作为用户命令(KoboldAI的冒险模式)。
模型可能不会立即理解您的意图或进入冒险模式行为。手动修正输出,修剪多余对话或其他不良行为,继续以适当模式提交行动。模型应能快速适应此风格,并在3轮内正确跟随格式。
发现有趣内容并想与我们互动?
加入我们的社区:https://koboldai.org/discord!


