基础模型: CausalLM/7B-DPO-alpha
数据集:
-
JosephusCheung/GuanacoDataset
-
Open-Orca/OpenOrca
-
stingning/ultrachat
-
meta-math/MetaMathQA
-
liuhaotian/LLaVA-Instruct-150K
-
jondurbin/airoboros-3.1
-
WizardLM/WizardLM_evol_instruct_V2_196k
-
RyokoAI/ShareGPT52K
-
RyokoAI/Fandom23K
-
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
-
维基百科
-
wiki_lingua
-
fnlp/moss-003-sft-data
-
garage-bAInd/Open-Platypus
-
LDJnr/Puffin
-
openbmb/llava_zh
-
BAAI/COIG
-
TigerResearch/tigerbot-zhihu-zh-10k
-
liwu/MNBVC
-
teknium/openhermes
推理: 关闭
语言:
-
英文
-
中文
许可证: wtfpl
模型创建者: CausalLM
模型名称: CausalLM 7B-DPO-alpha
模型类型: llama
管道标签: 文本生成
提示模板: '<|im_start|>系统
{系统消息}<|im_end|>
<|im_start|>用户
{提示}<|im_end|>
<|im_start|>助手
'
量化者: tastypear
标签:
-
llama
-
llama2
-
qwen
我参考TheBloke的发布格式,并根据TheBloke/CausalLM-7B-GGUF的推荐,制作了这个模型的量化版本。
CausalLM 7B-DPO-alpha - GGUF
描述
此仓库包含CausalLM的CausalLM 7B-DPO-alpha的GGUF格式模型文件。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式。它取代了GGML,后者已不再受llama.cpp支持。
以下是已知支持GGUF的客户端和库的不完整列表:
提示模板: ChatML
<|im_start|>系统
{系统消息}<|im_end|>
<|im_start|>用户
{提示}<|im_end|>
<|im_start|>助手
许可
源模型的创建者将其许可证列为wtfpl
,因此此量化版本使用了相同的许可证。
由于此模型基于Llama 2,因此也受Meta Llama 2许可条款的约束,并额外包含了相关许可文件。因此,应认为该模型声称同时受两种许可证的约束。我已联系Hugging Face以澄清双重许可的问题,但他们尚未有官方立场。如果情况发生变化,或Meta对此情况提供任何反馈,我将相应更新此部分。
在此期间,任何有关许可的问题,特别是这两种许可如何相互作用的问题,应直接指向原始模型仓库:CausalLM的CausalLM 7B-DPO-alpha。
兼容性
这些量化的GGUFv2文件与2023年8月27日及之后的llama.cpp兼容,提交号为d0cee0d
它们也与许多第三方UI和库兼容 - 请参阅本README顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q4_K - "type-1" 4位量化,包含8个块的超级块,每个块有32个权重。比例和最小值用6位量化。最终使用4.5 bpw。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,结果为5.5 bpw
请参阅下面的“提供的文件”表,了解哪些文件使用了哪些方法及其方式。
提供的文件
原始模型卡: CausalLM的CausalLM 7B-DPO-alpha
详情请参见未经DPO训练的版本:CausalLM/7B。
模型 |
MT-Bench |
GPT-4 |
8.99 |
GPT-3.5-Turbo |
7.94 |
|
|
Zephyr-7b-β (过拟合) |
7.34 |
Zephyr-7b-α |
6.88 |
|
|
CausalLM/14B-DPO-α |
7.618868 |
CausalLM/7B-DPO-α |
7.038125 |
需要注意的是,这并不是在CausalLM/14B & 7B上继续训练的版本,而是在之前的训练分支上同时进行了DPO训练的优化版本,一些细节参数可能发生了变化。您仍然需要下载完整模型。
beta分支即将发布,采用了一些可能不利于某些任务的激进方法,以实现更好地符合人类偏好以接近和超过GPT-3.5基准。敬请期待。
免责声明:请注意,模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据,可能会出现大量不良内容、色情、暴力和冒犯性语言,我们无法删除这些内容。因此,您仍然需要对模型的安全性进行自己的检查,并对输出中的关键词进行过滤。由于计算资源的限制,我们目前无法为模型的伦理和安全实施RLHF,也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。