模型简介
模型特点
模型能力
使用案例
license: other model_name: Dolphin Llama 13B base_model: ehartford/dolphin-llama-13b inference: false model_creator: Eric Hartford model_type: llama prompt_template: 'SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:
' quantized_by: TheBloke task_categories:
- text-generation

TheBloke的LLM工作得到了安德森·霍洛维茨(a16z)的慷慨资助支持
Dolphin Llama 13B - GPTQ
- 模型创建者:Eric Hartford
- 原始模型:Dolphin Llama 13B
描述
此仓库包含Eric Hartford的Dolphin Llama 13B的GPTQ模型文件。
提供了多种GPTQ参数组合;详情请参阅下面的“提供文件”部分,了解提供的选项、参数及用于创建它们的软件。
可用仓库
- 用于GPU推理的AWQ模型
- 用于GPU推理的GPTQ模型,提供多种量化参数选项
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- Eric Hartford的原始未量化fp16模型,以pytorch格式提供,用于GPU推理及进一步转换
提示模板:Orca-Vicuna
SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:
提供文件及GPTQ参数
提供了多种量化参数,以便您根据硬件和需求选择最佳方案。
每个独立的量化位于不同的分支。从不同分支获取的说明见下文。
所有最近的GPTQ文件均使用AutoGPTQ制作,非主分支的所有文件也使用AutoGPTQ制作。主分支中2023年8月前上传的文件使用GPTQ-for-LLaMa制作。
GPTQ参数说明
- 位数:量化模型的位大小。
- GS:GPTQ组大小。数值越高,VRAM使用越少,但量化精度越低。“None”为最低可能值。
- 激活顺序:True或False。也称为
desc_act
。True能提高量化精度。某些GPTQ客户端在使用激活顺序加组大小时曾遇到问题,但通常现已解决。 - 阻尼%:影响量化样本处理的GPTQ参数。默认为0.01,但0.1能略微提高精度。
- GPTQ数据集:用于量化的数据集。使用更符合模型训练的数据集可提高量化精度。注意GPTQ数据集与训练模型所用数据集不同——训练数据集详情请参阅原始模型仓库。
- 序列长度:用于量化的数据集序列长度。理想情况下应与模型序列长度相同。对于某些超长序列模型(16+K),可能需要使用较短的序列长度。注意较短的序列长度不会限制量化模型的序列长度,仅影响较长推理序列的量化精度。
- ExLlama兼容性:此文件是否可用ExLlama加载,目前仅支持4位的Llama模型。
分支 | 位数 | GS | 激活顺序 | 阻尼% | GPTQ数据集 | 序列长度 | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | No | 0.1 | wikitext | 2048 | 7.26 GB | Yes | 4位,无激活顺序,组大小128g。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 2048 | 8.00 GB | Yes | 4位,带激活顺序,组大小32g。提供最高推理质量,VRAM使用最大。 |
gptq-4bit-64g-actorder_True | 4 | 64 | Yes | 0.1 | wikitext | 2048 | 7.51 GB | Yes | 4位,带激活顺序,组大小64g。VRAM使用少于32g,但精度略低。 |
gptq-4bit-128g-actorder_True | 4 | 128 | Yes | 0.1 | wikitext | 2048 | 7.26 GB | Yes | 4位,带激活顺序,组大小128g。VRAM使用少于64g,但精度略低。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 2048 | 13.36 GB | No | 8位,带激活顺序。无组大小,降低VRAM需求。 |
gptq-8bit-128g-actorder_False | 8 | 128 | No | 0.1 | wikitext | 2048 | 13.65 GB | No | 8位,组大小128g提高推理质量,无激活顺序以加快AutoGPTQ速度。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 2048 | 13.65 GB | No | 8位,组大小128g提高推理质量,带激活顺序进一步提高精度。 |
gptq-8bit-64g-actorder_True | 8 | 64 | Yes | 0.1 | wikitext | 2048 | 13.95 GB | No | 8位,组大小64g带激活顺序进一步提高推理质量。AutoGPTQ CUDA速度较差。 |
如何从分支下载
- 在text-generation-webui中,可在下载名称后添加
:branch
,例如TheBloke/Dolphin-Llama-13B-GPTQ:main
- 使用Git时,可克隆分支:
git clone --single-branch --branch main https://huggingface.co/TheBloke/Dolphin-Llama-13B-GPTQ
- 在Python Transformers代码中,分支为
revision
参数;见下文。
如何在text-generation-webui中轻松下载并使用此模型。
请确保您使用的是最新版text-generation-webui。
强烈建议使用text-generation-webui的一键安装程序,除非您确定知道如何进行手动安装。
- 点击Model tab。
- 在Download custom model or LoRA下,输入
TheBloke/Dolphin-Llama-13B-GPTQ
。
- 从特定分支下载,例如输入
TheBloke/Dolphin-Llama-13B-GPTQ:main
- 各选项的分支列表见上文“提供文件”部分。
- 点击Download。
- 模型将开始下载。完成后会显示“Done”。
- 左上角点击刷新图标旁的Model。
- 在Model下拉菜单中,选择刚下载的模型:
Dolphin-Llama-13B-GPTQ
- 模型将自动加载,准备就绪。
- 如需自定义设置,设置后点击Save settings for this model,然后右上角点击Reload the Model。
- 注意:无需也不应再手动设置GPTQ参数。这些参数已自动从
quantize_config.json
文件设置。
- 准备就绪后,点击Text Generation tab并输入提示开始生成!
如何从Python代码使用此GPTQ模型
安装必要包
需要:Transformers 4.32.0或更高版本,Optimum 1.12.0或更高版本,以及AutoGPTQ 0.4.2或更高版本。
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 如使用CUDA 11.7,则为cu117
如使用预构建轮子安装AutoGPTQ遇到问题,可从源码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
仅CodeLlama模型:必须使用Transformers 4.33.0或更高版本
如阅读本文时4.33.0尚未发布,需从源码安装Transformers:
pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git
然后可使用以下代码
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Dolphin-Llama-13B-GPTQ"
# 使用不同分支,更改revision
# 例如:revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可使用transformers的pipeline进行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
兼容性
提供的文件经测试可与AutoGPTQ(通过Transformers和直接使用AutoGPTQ)一起工作。也应与Occ4m的GPTQ-for-LLaMa分支兼容。
ExLlama兼容4位的Llama模型。各文件兼容性见上文“提供文件”表。
Huggingface Text Generation Inference (TGI)兼容所有GPTQ模型。
Discord
如需进一步支持及关于这些模型和AI的讨论,请加入:
感谢及如何贡献
感谢chirper.ai团队!
感谢Clay来自gpus.llm-utils.org!
许多人询问是否可以贡献。我乐于提供模型并帮助他人,并希望能投入更多时间于此,以及开展新的项目如微调/训练。
如您有能力并愿意贡献,我将不胜感激,并将有助于我继续提供更多模型,并开始新的AI项目。
捐助者将获得任何及所有AI/LLM/模型问题的优先支持,访问私人Discord房间,及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov
感谢所有慷慨的赞助者和捐助者!
再次感谢a16z的慷慨资助。
原始模型卡片:Eric Hartford的Dolphin Llama 13B
Dolphin 🐬 https://erichartford.com/dolphin
此模型基于llama1,因此仅供非商业用途。未来版本将基于llama2及其他适合商业用途的开放模型进行训练。
此模型未经审查。我已过滤数据集以去除对齐和偏见。这使得模型能合规响应任何请求。建议在将模型作为服务公开前,自行实现对齐层。它将高度合规地响应任何请求,甚至是不道德的请求。请阅读我关于未经审查模型的博客文章。https://erichartford.com/uncensored-models 您需对使用此模型创建的任何内容负责。请负责任地使用。
数据集
此数据集是微软Orca的开源实现
经过去除审查、去重和清理后,我们的数据集包含:
- 842,610条FLANv2指令,增强GPT-4补全
- 2,625,353条FLANv2指令,增强GPT-3.5补全
我们遵循了Orca论文中概述的子混合和系统提示分布。但有一些例外。我们包含了FLAN-1m数据集中的所有75k CoT,而非抽样。此外,我们发现许多条目重复,因此去除了重复项。
然后我们过滤了对齐、拒绝、回避和偏见的实例,以生成一个未经审查的模型,可在其上叠加个性化的对齐LoRA。
我们还过滤了重复项并清理了数据。
训练
我们使用flan5m(gpt3.5补全)数据集完整训练了3个周期,学习率为2e-5,之后停止训练以避免过拟合。 我们使用flan1m(gpt4补全)数据集完整训练了2.5个周期,学习率为1e-5,之后停止训练以避免过拟合。 在8x H100上训练耗时约600小时 我们使用了类似Vicuna的提示格式,但添加了SYSTEM:字段。
提示格式:
SYSTEM: {system}
USER: {prompt}
ASSISTANT:
示例:
SYSTEM: you are an expert marine biologist.
USER: Please list 10 ways that dolphins are superior to orcas.
ASSISTANT:
评估
评估即将推出。
团队
Dolphin核心团队包括:
- Eric "Faldore" Hartford
- Pankaj Mathur
- Rob "Rohan" O'Callahan
- Tom "TheBloke" Jobbins
致谢
- 感谢微软撰写Orca论文并启发此工作。
- 特别感谢WingLian、NanoBit、Teknium的有益建议
- 特别感谢EdenCoder和chirper.ai的指导及财务赞助。
- 特别感谢Kilkonie的宝贵指导。
- 感谢Catto。
- 感谢Nicolai Schleifer的财务赞助。
- 感谢Eric Fleming的财务赞助。
- 感谢开源AI社区中所有教导和帮助过我的人。
- 最深的感谢和爱给我的妻子Hope和我的孩子们,他们忍受了我两个月来因长期日夜工作于此项目而缺席的日子。
示例输出
SYSTEM: you are an expert marine biologist.
USER: Please list 10 ways that dolphins are superior to orcas.
ASSISTANT:
-
社会结构:海豚生活在称为群体的复杂社会结构中,由扩展家庭单位组成,可包含数百个体。而虎鲸通常形成更小、更临时的群体,称为氏族或母系亲属群体。
-
交流:海豚拥有高度发达的发声、肢体语言甚至心灵感应系统,用于协调合作狩猎策略、分享食物来源信息和维持社会纽带。虽然虎鲸也展示一定的交流能力,但其方法通常不如海豚复杂。
-
智力:海豚被广泛认为是最聪明的动物物种之一,展现出高级问题解决能力、自我意识、工具使用(如用海绵作为工具)和学习能力。某些海豚物种被观察到表现出利他行为和对人类情绪的理解。相比之下,虎鲸虽然也聪明,但未展示与海豚相同水平的认知复杂性。
-
爱玩性:海豚以爱玩行为闻名,常进行杂技表演、追逐彼此的尾巴和玩球或海藻等物体。这种爱玩天性被认为对其社会纽带和心理刺激至关重要。尽管虎鲸偶尔也会互动玩耍,但不如海豚普遍或多样。
-
敏捷与速度:海豚游泳极其敏捷,追逐猎物时速度可达每小时30英里(48公里)。它们能快速改变方向并在狭小空间灵活穿行。虎鲸虽是强大的捕食者和快速游泳者,但其加速度和敏捷性无法与海豚匹敌。
-
摄食习性:海豚和虎鲸均为肉食性,主要捕食鱼类和头足类。但海豚采用更多样的狩猎技术,包括合作狩猎策略,如驱赶鱼群至浅水区使其迷失方向更易捕捉。虎鲸主要依赖从下方伏击猎物并用强大的颌部快速攻击。
-
繁殖:雌性海豚通常在12个月妊娠期后产下一仔。母亲在抚养和培育幼崽直至其独立过程中起关键作用。而雌性虎鲸每三到五年繁殖一次,一次产多仔,并高度依赖母亲保护和教导。
-
发声曲目:海豚拥有广泛的声音,包括咔嗒声、哨声和身体声音,使其能在群体中传递不同信息并建立独特身份。虎鲸也会发声,但缺乏海豚叫声的多样性。
-
保护状态:许多海豚物种因栖息地丧失、污染、过度捕捞和气候变化面临威胁。因此,多个种群被国际自然保护联盟(IUCN)列为易危或濒危。相比之下,虎鲸的保护状态因地区而异;但目前无物种被列为极危或面临灭绝。
-
适应性:海豚适应了各种水生环境,从温暖沿海水域到寒冷开阔海洋。其多功能性使其能在热带和温带气候中繁衍生息。虎鲸则适应特定栖息地如较冷的沿海水域,主要分布于北半球。


