模型简介
模型特点
模型能力
使用案例
语言:
- 英文 标签:
- 因果语言模型
- llama 许可证: cc-by-nc-sa-4.0 数据集:
- OpenAssistant/oasst1
- nomic-ai/gpt4all_prompt_generations
- tatsu-lab/alpaca 推理: false

TheBloke的LLM工作得到了安德森·霍洛维茨(a16z)的慷慨资助支持
StableVicuna-13B-GPTQ
此仓库包含CarperAI的StableVicuna 13B的4位GPTQ格式量化模型。
首先将上述仓库的增量权重与原始Llama 13B权重合并,然后使用GPTQ-for-LLaMa进行4位量化。
可用仓库
提示模板
此模型最佳配合以下提示模板使用:
### 人类:在此输入你的提示
### 助手:
如何在text-generation-webui中轻松下载并使用此模型
正常打开text-generation-webui界面。
- 点击模型标签。
- 在下载自定义模型或LoRA下,输入
TheBloke/stable-vicuna-13B-GPTQ
。 - 点击下载。
- 等待下载完成。
- 点击左上角模型旁边的刷新图标。
- 在模型下拉菜单中选择刚刚下载的模型
stable-vicuna-13B-GPTQ
。 - 加载完成后,点击文本生成标签并输入提示!
提供的文件
我上传了两个版本的GPTQ。
兼容文件 - stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors
在main
分支(默认分支)中,你会找到stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors
。
此文件与所有版本的GPTQ-for-LLaMa兼容。具有最大兼容性。
创建时未使用--act-order
参数。与其他文件相比,推理质量可能略低,但保证能在所有版本的GPTQ-for-LLaMa和text-generation-webui上工作。
stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors
- 适用于所有版本的GPTQ-for-LLaMa代码,包括Triton和CUDA分支
- 适用于text-generation-webui的一键安装程序
- 参数:组大小=128g。无act-order。
- 创建GPTQ的命令:
CUDA_VISIBLE_DEVICES=0 python3 llama.py stable-vicuna-13B-HF c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors stable-vicuna-13B-GPTQ-4bit.no-act-order.safetensors
最新文件 - stable-vicuna-13B-GPTQ-4bit.latest.act-order.safetensors
为GPTQ-for-LLaMa的较新版本创建,并使用--act-order
标志以获得最大理论性能。
要访问此文件,请切换到此仓库的latest
分支并从那里下载。
stable-vicuna-13B-GPTQ-4bit.latest.act-order.safetensors
- 仅适用于较新的GPTQ-for-LLaMa代码
- 不适用于text-generation-webui的一键安装程序
- 参数:组大小=128g。act-order。
- 提供最高质量的量化,但需要最新的GPTQ-for-LLaMa代码
- 创建GPTQ的命令:
CUDA_VISIBLE_DEVICES=0 python3 llama.py stable-vicuna-13B-HF c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors stable-vicuna-13B-GPTQ-4bit.act-order.safetensors
text-generation-webui
的手动说明
文件stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors
可以像任何其他GPTQ文件一样加载,无需更新oobaboogas text-generation-webui。
在text-generation-webui中使用GPTQ 4位文件的说明在此。
另一个safetensors
模型文件使用--act-order
创建,以提供最大可能的量化质量,但这意味着UI内部需要使用最新的GPTQ-for-LLaMa。
如果你想使用act-order的safetensors
文件并需要更新GPTQ-for-LLaMa的Triton分支,以下是我用于克隆GPTQ-for-LLaMa的Triton分支、克隆text-generation-webui并将GPTQ安装到UI中的命令:
# 克隆text-generation-webui,如果尚未拥有
git clone https://github.com/oobabooga/text-generation-webui
# 创建存储库目录
mkdir text-generation-webui/repositories
cd text-generation-webui/repositories
# 在text-generation-webui中克隆最新的GPTQ-for-LLaMa代码
git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa
然后将此模型安装到text-generation-webui/models
并按如下方式启动UI:
cd text-generation-webui
python server.py --model stable-vicuna-13B-GPTQ --wbits 4 --groupsize 128 --model_type Llama # 添加你想要的任何其他命令行参数
上述命令假设你已经安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖项。请参阅它们各自的仓库以获取更多信息。
如果你无法更新GPTQ-for-LLaMa或不想更新,可以使用stable-vicuna-13B-GPTQ-4bit.no-act-order.safetensors
,如上所述,它应该无需升级text-generation-webui即可工作。
Discord
如需进一步支持以及关于这些模型和AI的讨论,请加入:
感谢及如何贡献
感谢chirper.ai团队!
很多人问我是否可以贡献。我喜欢提供模型和帮助他人,并希望能够花更多时间做这些事情,以及扩展到新的项目,如微调/训练。
如果你有能力并愿意贡献,这将是最感激的,并将帮助我继续提供更多模型,并开始新的AI项目。
捐助者将在所有AI/LLM/模型问题和请求上获得优先支持,访问私人Discord房间,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Sam, theTransient, Jonathan Leane, Steven Wood, webtim, Johann-Peter Hartmann, Geoffrey Montalvo, Gabriel Tamborski, Willem Michiel, John Villwock, Derek Yates, Mesiah Bishop, Eugene Pentland, Pieter, Chadd, Stephen Murray, Daniel P. Andersen, terasurfer, Brandon Frisco, Thomas Belote, Sid, Nathan LeClaire, Magnesian, Alps Aficionado, Stanislav Ovsiannikov, Alex, Joseph William Delisle, Nikolai Manek, Michael Davis, Junyu Yang, K, J, Spencer Kim, Stefan Sabev, Olusegun Samson, transmissions 11, Michael Levine, Cory Kujawski, Rainer Wilmers, zynix, Kalila, Luke @flexchar, Ajan Kanaga, Mandus, vamX, Ai Maven, Mano Prime, Matthew Berman, subjectnull, Vitor Caleffi, Clay Pascal, biorpg, alfie_i, 阿明, Jeffrey Morgan, ya boyyy, Raymond Fosdick, knownsqashed, Olakabola, Leonard Tan, ReadyPlayerEmma, Enrico Ros, Dave, Talal Aujan, Illia Dulskyi, Sean Connelly, senxiiz, Artur Olbinski, Elle, Raven Klaugh, Fen Risland, Deep Realms, Imad Khwaja, Fred von Graf, Will Dee, usrbinkat, SuperWojo, Alexandros Triantafyllidis, Swaroop Kallakuri, Dan Guido, John Detwiler, Pedro Madruga, Iucharbius, Viktor Bowallius, Asp the Wyvern, Edmond Seymore, Trenton Dambrowitz, Space Cruiser, Spiking Neurons AB, Pyrater, LangChain4j, Tony Hughes, Kacper Wikieł, Rishabh Srivastava, David Ziegler, Luke Pendergrass, Andrey, Gabriel Puliatti, Lone Striker, Sebastain Graf, Pierre Kircher, Randy H, NimbleBox.ai, Vadim, danny, Deo Leter
感谢所有慷慨的赞助者和捐助者!
再次感谢a16z的慷慨资助。
原始StableVicuna-13B模型卡
模型描述
StableVicuna-13B是一个Vicuna-13B v0模型,通过从人类反馈中进行强化学习(RLHF)使用近端策略优化(PPO)在各种对话和指导数据集上进行了微调。
模型详情
- 训练者:CarperAI的Duy Phung
- 模型类型:StableVicuna-13B是基于LLaMA变压器架构的自回归语言模型。
- 语言:英语
- 库:trlX
- 增量权重许可证:CC-BY-NC-SA-4.0
- 注意:基础LLaMA模型权重的许可证是Meta的非商业定制许可证。
- 联系方式:有关模型的问题和评论,请访问CarperAI和StableFoundation Discord服务器。
超参数 | 值 |
---|---|
\(n_\text{parameters}\) | 13B |
\(d_\text{model}\) | 5120 |
\(n_\text{layers}\) | 40 |
\(n_\text{heads}\) | 40 |
训练
训练数据集
StableVicuna-13B在三个数据集的混合上进行了微调。OpenAssistant Conversations Dataset (OASST1),一个由人类生成、人类注释的助手风格对话语料库,包含161,443条消息,分布在66,497个对话树中,使用35种不同语言; GPT4All Prompt Generations,一个由GPT-4生成的40万条提示和回应的数据集;以及Alpaca,一个由OpenAI的text-davinci-003引擎生成的52,000条指令和演示的数据集。
RLHF期间使用的奖励模型也在OpenAssistant Conversations Dataset (OASST1)以及其他两个数据集上进行了训练:Anthropic HH-RLHF,一个关于AI助手帮助性和无害性的偏好数据集;以及Stanford Human Preferences Dataset,一个包含385K集体人类偏好的数据集,涵盖从烹饪到法律建议等18个不同主题的问题/指令的回应。
训练过程
CarperAI/stable-vicuna-13b-delta
使用trlX
中实现的PPO进行训练,配置如下:
超参数 | 值 |
---|---|
num_rollouts | 128 |
chunk_size | 16 |
ppo_epochs | 4 |
init_kl_coef | 0.1 |
target | 6 |
horizon | 10000 |
gamma | 1 |
lam | 0.95 |
cliprange | 0.2 |
cliprange_value | 0.2 |
vf_coef | 1.0 |
scale_reward | None |
cliprange_reward | 10 |
generation_kwargs | |
max_length | 512 |
min_length | 48 |
top_k | 0.0 |
top_p | 1.0 |
do_sample | True |
temperature | 1.0 |
使用与限制
预期用途
此模型旨在用于以对话任务为重点的文本生成。用户可以根据非商业许可证在自己的数据上进一步微调模型,以提高模型在特定任务上的性能。
限制与偏见
基础LLaMA模型在各种数据上进行训练,其中一些可能包含冒犯性、有害和有偏见的内容,可能导致有毒行为。参见LLaMA论文的第5.1节。我们尚未进行任何研究来确定在上述数据集上的微调如何影响模型的行为和毒性。不要将此模型的聊天回应视为人类判断的替代品或真相来源。请负责任地使用。
致谢
如果没有Stability AI的支持,这项工作将无法完成。
引用
@article{touvron2023llama,
title={LLaMA: Open and Efficient Foundation Language Models},
author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume},
journal={arXiv preprint arXiv:2302.13971},
year={2023}
}
@misc{vicuna2023,
title = {Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality},
url = {https://vicuna.lmsys.org},
author = {Chiang, Wei-Lin and Li, Zhuohan and Lin, Zi and Sheng, Ying and Wu, Zhanghao and Zhang, Hao and Zheng, Lianmin and Zhuang, Siyuan and Zhuang, Yonghao and Gonzalez, Joseph E. and Stoica, Ion and Xing, Eric P.},
month = {March},
year = {2023}
}
@misc{gpt4all,
author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar},
title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/nomic-ai/gpt4all}},
}
@misc{alpaca,
author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto },
title = {Stanford Alpaca: An Instruction-following LLaMA model},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}},
}
@software{leandro_von_werra_2023_7790115,
author = {Leandro von Werra and
Alex Havrilla and
Max reciprocated and
Jonathan Tow and
Aman cat-state and
Duy V. Phung and
Louis Castricato and
Shahbuland Matiana and
Alan and
Ayush Thakur and
Alexey Bukhtiyarov and
aaronrmm and
Fabrizio Milo and
Daniel and
Daniel King and
Dong Shin and
Ethan Kim and
Justin Wei and
Manuel Romero and
Nicky Pochinkov and
Omar Sanseviero and
Reshinth Adithyan and
Sherman Siu and
Thomas Simonini and
Vladimir Blagojevic and
Xu Song and
Zack Witten and
alexandremuzio and
crumb},
title = {{CarperAI/trlx: v0.6.0: LLaMa (Alpaca), Benchmark
Util, T5 ILQL, Tests}},
month = mar,
year = 2023,
publisher = {Zenodo},
version = {v0.6.0},
doi = {10.5281/zenodo.7790115},
url = {https://doi.org/10.5281/zenodo.7790115}
}


