许可证:apache-2.0
语言:
- 英文
标签:
- 创意
- 故事
- 写作
- 小说
- float32
- 角色扮演
- rp
- 增强版
- 太空鲸
- 32位升级版
任务标签:文本生成
超高质量重制版:震撼之作Psyonic-Cetacean-20b的升级
这是浮点32位升级版,所有组件和合并模型均以浮点32位精度重制。
包括所有合并模型(使用主文件重新创建),并尽可能替换为完整的FP32模型。
目标:在模型被“GUFF化”之前,确保每一步都保持最高精度。
这还包括GGUF的F32主文件,体积高达78GB(相比之下,20B模型的平均大小为38GB)。
为什么?
因为F32与BF16之间的差异超过了8位小数精度。
每次合并或修改模型时都会产生“精度损失”。
这些损失会累积,进而导致更多损失。
而小数精度对模型性能至关重要。
影响小?
是的……但每次合并和压缩都会放大这种影响:200亿次。
结果:
- Q2K版本困惑度惊人地降低了533点(数值越低越好)
(对比原版Q2K基础模型:PPL = 9.8077 ± 0.06821)
- Q4KM版本困惑度大幅降低976点
(对比原版Q4KM基础模型:PPL = 8.7858 ± 0.06074)
- Q6版本困惑度显著降低234点
(对比原版Q6基础模型:PPL = 8.6070 ± 0.05907)
从数据来看,现在的Q6版本性能已超越原版Psyonic-Cetacean-20b的全精度版本,而Q4KM版本接近Q6的质量水平。
这是因为在Q6版本中,量化/压缩模型的困惑度被认为与未压缩/未量化模型的差异在“+0.0008 ppl”以内,而此次升级的模型超出了这一阈值200多点。
那么Q8呢?
性能再次提升:
困惑度降低150点:PPL = 8.5850 ± 0.05881
对比原版:PPL = 8.6012 ± 0.05900
最终结果:
据模型原作者Jeb Carter反馈:
- 指令跟随能力显著提升
- 涌现新能力
- 指令集需简化,因为模型不再需要过于具体的指令
- 文本、细节和深度均有改善
- 原模型的已知问题已消失
这不是“不劳而获”,而是在模型“GGUF化”前确保每一步精度最大化的方法。
采用的方法仅用于最小化或消除精度损失,数学和理论均可靠。
核心结论:
- 更高品质的指令跟随和输出
- 可使用更小的压缩率,同时保持高生成速度与质量
- 同样的优秀模型,性能更强
这是首批重制版本。
聊天/角色扮演及模型流畅运行设置:
在KoboldCpp、oobabooga/text-generation-webui或Silly Tavern中:
将“Smoothing_factor”设为1.5至2.5
- KoboldCpp:Settings → Samplers → Advanced → Smooth_F
- text-generation-webui:参数设置右下角
- Silly Tavern中称为“Smoothing”
注意:
- 在text-generation-webui中使用GGUF需加载“llama_HF”(需从模型源版本下载配置文件)
源版本及配置文件地址:
https://huggingface.co/collections/DavidAU/d-au-source-files-for-gguf-exl2-awq-gptq-hqq-etc-etc-66b55cb8ba25f914cbf210be
其他选项:
- 将重复惩罚(rep pen)增至1.1至1.15(若使用“smoothing_factor”则无需调整)
- 若运行AI的界面/程序支持“二次采样”(“平滑”),按上述调整即可
最高质量设置/优化运行指南:
此为“Class 2”模型。
所有设置(包括该“类别”的特定参数)、示例生成及高级设置指南(常解决模型问题),以及提升各类用例(如聊天、角色扮演等)性能的方法,请参阅:
https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters
四步进阶计划:
- 本仓库后将发布“reg quant plus”版本,在GGUF(全层级)中额外加入FP32精度组件,进一步提升创造力和AI性能,困惑度再降50-100点。
- 随后将推出全FP32精度的Imatrix版本(含“imatrixed”常规量化模型),测试结果将与原版及“超强”常规量化版对比发布。
- Imatrix Plus仓库将采用与“reg quant plus”相同的FP32增强,进一步突破极限。
Imatrix仓库地址:https://huggingface.co/DavidAU/Psyonic-Cetacean-Ultra-Quality-20b-GGUF-imatrix
- 所有高精度重制方法(及需避免的陷阱)的详细说明,以及新旧版本对比将很快发布。
再次感谢Psyonic-Cetacean-20B的原作者Jeb Carter:
https://huggingface.co/jebcarter/psyonic-cetacean-20B