许可证:apache-2.0
语言:
- 英语
标签:
- 创意
- 故事
- 写作
- 小说
- float32
- 角色扮演
- RP
- 增强版
- 太空鲸
- 32位升级
任务类型:文本生成
超高质量重制版:Psyonic-Cetacean-20b - Imatrix Plus的极致升级
这是浮点32位(FP32)升级版本,所有组件和合并模型均以32位浮点精度重制。
包括所有合并模型(使用主文件重新创建),并尽可能替换为完整的FP32模型。

目标:在模型被"GUFF化"前,始终保持最高精度。
GGUF的FP32主文件也包含在内... 体积高达78GB。
为何如此?
因为FP32与BF16之间的差异...超过8个小数位。
每次合并/修改模型时都会产生"精度损失"。
这些损失会累积并引发更多损失。
而小数位对模型性能至关重要。
影响微小?
是的...但乘以每次合并和压缩操作:200亿次。
结果:
- Q2K量化下,困惑度(PPL)显著降低533点(数值越低越好)
(对比原版Q2K基准模型:PPL=9.8077±0.06821)
- Q4KM量化下,困惑度暴降976点
(对比原版Q4KM基准模型:PPL=8.7858±0.06074)
- Q6量化下,困惑度惊人下降234点
(对比原版Q6基准模型:PPL=8.6070±0.05907)
更直观的对比:
当前Q6版本性能已超越原版Psyonic-Cetacean-20b全精度模型,Q4KM则接近原版Q6水平。
因为Q6量化模型原本就被认为与未压缩模型的差距在"+0.0008 PPL"内,而本版本超出该阈值200多点。
Imatrix量化更进一步,在多数情况下能使困惑度降幅翻倍
Q4km-imatrix:
最终估值:PPL=8.6095±0.05898
(非imatrix版:PPL=8.6902±0.05985)
Q8表现如何?
150点提升:PPL=8.5850±0.05881 vs 原版PPL=8.6012±0.05900
核心结论:
据模型原作者Jeb Carter反馈:
- 指令跟随能力显著提升
- 涌现新能力
- 需简化指令集(因模型不再需要过于具体的指令)
- 文本表现力、细节深度全面提升
- 原版已知问题全部消失
这不是"不劳而获",而是确保模型在"GGUF化"前每一步都保持最大精度的系统方法。
所用方法从数学和理论层面确保精度损失最小化或归零。
最终效果:
更高质的指令响应与输出。
用户可采用更高压缩率(更快token生成速度)同时保持优质输出——如同为原模型装上涡轮增压器。
首批重制模型使用建议:
聊天/角色扮演优化设置:
在KoboldCpp、text-generation-webui或Silly Tavern中:
将"Smoothing_factor"设为1.5-2.5
- KoboldCpp:Settings→Samplers→Advanced→"Smooth_F"
- text-generation-webui:parameters界面右下角
- Silly Tavern中称为:"Smoothing"
注意:
text-generation-webui用户若使用GGUF,需选用"llama_HF"(需从本模型SOURCE版下载配置文件)
源模型及配置文件地址:
https://huggingface.co/collections/DavidAU/d-au-source-files-for-gguf-exl2-awq-gptq-hqq-etc-etc-66b55cb8ba25f914cbf210be
其他优化选项:
- 将重复惩罚(rep pen)增至1.1-1.15(若已使用"smoothing_factor"可跳过)
- 若AI运行平台支持"二次采样"(Quadratic Sampling/"smoothing"),按上述调整即可
最高质量参数指南:
本模型属于"Class 2"类别:
完整参数设置、示例生成及高级优化指南(含各类应用场景解决方案)详见:
https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters
后续计划:
- "常规量化增强版":在GGUF各层级注入额外FP32组件,进一步提升创造力与AI性能(预计再降困惑度50-100点)
- 全FP32精度的Imatrix版本(含常规量化的imatrix处理)
- Imatrix Plus版:在"常规量化增强版"基础上进一步突破极限
完整方法论与新旧版本对比报告即将发布。
特别感谢原模型创作者Jeb Carter:https://huggingface.co/jebcarter/psyonic-cetacean-20B