模型简介
模型特点
模型能力
使用案例
推理: false 许可证: other 语言:
- 英文 标签:
- llama
- 自指导
- 蒸馏

TheBloke的LLM工作得到了安德森·霍洛维茨(a16z)的慷慨资助支持
NousResearch的Nous-Hermes-13B GPTQ
这些文件是NousResearch的Nous-Hermes-13B的GPTQ 4位模型文件。
这是使用GPTQ-for-LLaMa量化为4位的结果。
其他可用仓库
提示模板
模型遵循Alpaca提示格式:
### 指令:
### 响应:
或
### 指令:
### 输入:
### 响应:
如何轻松下载并在text-generation-webui中使用此模型
请确保您使用的是最新版本的text-generation-webui
- 点击模型标签。
- 在下载自定义模型或LoRA下,输入
TheBloke/Nous-Hermes-13B-GPTQ
。 - 点击下载。
- 模型将开始下载。完成后会显示“完成”。
- 在左上角,点击模型旁边的刷新图标。
- 在模型下拉菜单中,选择您刚刚下载的模型:
Nous-Hermes-13B-GPTQ
。 - 模型将自动加载,现在可以使用了!
- 如果您想要任何自定义设置,设置它们,然后点击保存此模型的设置,接着点击右上角的重新加载模型。
- 注意,您不再需要设置GPTQ参数。这些参数会自动从文件
quantize_config.json
中设置。
- 准备就绪后,点击文本生成标签并输入提示开始!
如何从Python代码中使用此GPTQ模型
首先确保您已安装AutoGPTQ:
pip install auto-gptq
然后尝试以下示例代码:
from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
import argparse
model_name_or_path = "TheBloke/Nous-Hermes-13B-GPTQ"
model_basename = "nous-hermes-13b-GPTQ-4bit-128g.no-act.order"
use_triton = False
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
model_basename=model_basename,
use_safetensors=True,
trust_remote_code=True,
device="cuda:0",
use_triton=use_triton,
quantize_config=None)
print("\n\n*** 生成:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用transformers的pipeline进行推理
# 使用pipeline与AutoGPTQ时防止打印多余的transformers错误
logging.set_verbosity(logging.CRITICAL)
prompt = "告诉我关于AI"
prompt_template=f'''### 人类: {prompt}
### 助手:'''
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
temperature=0.7,
top_p=0.95,
repetition_penalty=1.15
)
print(pipe(prompt_template)[0]['generated_text'])
提供的文件
nous-hermes-13b-GPTQ-4bit-128g.no-act.order.safetensors
这将适用于所有版本的GPTQ-for-LLaMa,以及AutoGPTQ。
nous-hermes-13b-GPTQ-4bit-128g.no-act.order.safetensors
- 适用于所有版本的GPTQ-for-LLaMa代码,包括Triton和CUDA分支
- 适用于AutoGPTQ
- 适用于text-generation-webui的一键安装程序
- 参数:组大小=128。激活顺序/desc_act=False。
Discord
如需进一步支持,以及关于这些模型和AI的讨论,请加入我们:
感谢及如何贡献。
感谢chirper.ai团队!
许多人问我是否可以贡献。我喜欢提供模型和帮助人们,并希望能够花更多时间做这件事,以及扩展到新的项目,如微调/训练。
如果您能够并愿意贡献,这将是最感激的,并将帮助我继续提供更多模型,并开始新的AI项目。
捐助者将在任何和所有AI/LLM/模型问题和请求上获得优先支持,访问私人Discord房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Sam, theTransient, Jonathan Leane, Steven Wood, webtim, Johann-Peter Hartmann, Geoffrey Montalvo, Gabriel Tamborski, Willem Michiel, John Villwock, Derek Yates, Mesiah Bishop, Eugene Pentland, Pieter, Chadd, Stephen Murray, Daniel P. Andersen, terasurfer, Brandon Frisco, Thomas Belote, Sid, Nathan LeClaire, Magnesian, Alps Aficionado, Stanislav Ovsiannikov, Alex, Joseph William Delisle, Nikolai Manek, Michael Davis, Junyu Yang, K, J, Spencer Kim, Stefan Sabev, Olusegun Samson, transmissions 11, Michael Levine, Cory Kujawski, Rainer Wilmers, zynix, Kalila, Luke @flexchar, Ajan Kanaga, Mandus, vamX, Ai Maven, Mano Prime, Matthew Berman, subjectnull, Vitor Caleffi, Clay Pascal, biorpg, alfie_i, 阿明, Jeffrey Morgan, ya boyyy, Raymond Fosdick, knownsqashed, Olakabola, Leonard Tan, ReadyPlayerEmma, Enrico Ros, Dave, Talal Aujan, Illia Dulskyi, Sean Connelly, senxiiz, Artur Olbinski, Elle, Raven Klaugh, Fen Risland, Deep Realms, Imad Khwaja, Fred von Graf, Will Dee, usrbinkat, SuperWojo, Alexandros Triantafyllidis, Swaroop Kallakuri, Dan Guido, John Detwiler, Pedro Madruga, Iucharbius, Viktor Bowallius, Asp the Wyvern, Edmond Seymore, Trenton Dambrowitz, Space Cruiser, Spiking Neurons AB, Pyrater, LangChain4j, Tony Hughes, Kacper Wikieł, Rishabh Srivastava, David Ziegler, Luke Pendergrass, Andrey, Gabriel Puliatti, Lone Striker, Sebastain Graf, Pierre Kircher, Randy H, NimbleBox.ai, Vadim, danny, Deo Leter
感谢所有慷慨的赞助者和捐助者!
再次感谢a16z的慷慨资助。
原始模型卡片:NousResearch的Nous-Hermes-13B
模型卡片:Nous-Hermes-13b
模型描述
Nous-Hermes-13b是一个最先进的语言模型,基于超过300,000条指令进行了微调。该模型由Nous Research微调,Teknium和Karan4D领导微调过程和数据集策划,Redmond AI赞助计算资源,以及其他几位贡献者。结果是一个增强的Llama 13b模型,在各种任务中与GPT-3.5-turbo相媲美。
该模型以其长响应、低幻觉率和没有OpenAI审查机制而脱颖而出。微调过程是在8x a100 80GB DGX机器上以2000序列长度进行了超过50小时。
模型训练
该模型几乎完全基于合成的GPT-4输出进行训练。这包括来自不同来源的数据,如GPTeacher、general、roleplay v1&2、code instruct数据集、Nous Instruct & PDACTL(未发布)、CodeAlpaca、Evol_Instruct Uncensored、GPT4-LLM和Unnatural Instructions。
其他数据输入来自Camel-AI的Biology/Physics/Chemistry和Math数据集、Airoboros的GPT-4数据集,以及更多来自CodeAlpaca的数据。数据总量超过300,000条指令。
合作者
模型微调和数据集是Teknium、Karan4D、Nous Research、Huemin Art和Redmond AI之间的努力和资源合作。
对所有慷慨分享其数据集的数据集创建者表示巨大的感谢和认可。
特别感谢@winglian、@erhartford和@main_horse在训练问题上的帮助。
在数据集贡献者中,GPTeacher由Teknium提供,Wizard LM由nlpxucan提供,Nous Research Instruct数据集由Karan4D和HueminArt提供。 GPT4-LLM和Unnatural Instructions由微软提供,Airoboros数据集由jondurbin提供,Camel-AI数据集来自Camel-AI,CodeAlpaca数据集由Sahil 2801提供。 如果有遗漏,请在社区标签中开启一个线程。
提示格式
模型遵循Alpaca提示格式:
### 指令:
### 响应:
或
### 指令:
### 输入:
### 响应:
应用用例资源:
如需使用huggingface transformers和discord的来回聊天机器人示例,请查看:https://github.com/teknium1/alpaca-discord 如需角色扮演discord机器人示例,请查看:https://github.com/teknium1/alpaca-roleplay-discordbot
未来计划
模型目前以FP16格式上传,计划将模型转换为GGML和GPTQ 4位量化。团队还在进行完整的基准测试,类似于为GPT4-x-Vicuna所做的。我们将尝试进行讨论,将模型包含在GPT4All中。
基准测试结果
基准测试结果即将公布。
模型使用
模型可在Hugging Face上下载。适用于广泛的语言任务,从生成创意文本到理解和遵循复杂指令。
计算资源由我们的项目赞助商Redmond AI提供,谢谢!!


