许可证:Apache-2.0
库名称:transformers
流水线标签:文本生成
Fin-R1 GGUF 模型
选择正确的模型格式
选择合适的模型格式取决于您的硬件能力和内存限制。
BF16(Brain Float 16)——如果支持 BF16 加速则使用
- 一种 16 位浮点格式,专为更快的计算而设计,同时保持良好的精度。
- 提供与 FP32 相似的动态范围,但内存占用更低。
- 如果您的硬件支持BF16 加速(请检查设备规格),则推荐使用。
- 与 FP32 相比,高性能推理的理想选择,同时减少内存占用。
📌 使用 BF16 的情况:
✔ 您的硬件具有原生BF16 支持(例如,较新的 GPU、TPU)。
✔ 您希望在节省内存的同时保持更高的精度。
✔ 您计划将模型重新量化为其他格式。
📌 避免使用 BF16 的情况:
❌ 您的硬件不支持 BF16(可能会回退到 FP32,运行速度较慢)。
❌ 您需要与缺乏 BF16 优化的旧设备兼容。
F16(Float 16)——比 BF16 支持更广泛
- 一种 16 位浮点格式,精度较高,但数值范围比 BF16 小。
- 适用于大多数支持FP16 加速的设备(包括许多 GPU 和一些 CPU)。
- 数值精度略低于 BF16,但对于推理通常足够。
📌 使用 F16 的情况:
✔ 您的硬件支持FP16,但不支持 BF16。
✔ 您需要在速度、内存占用和准确性之间取得平衡。
✔ 您在GPU或其他针对 FP16 计算优化的设备上运行。
📌 避免使用 F16 的情况:
❌ 您的设备缺乏原生 FP16 支持(运行速度可能比预期慢)。
❌ 您的内存有限。
量化模型(Q4_K、Q6_K、Q8 等)——适用于 CPU 和低 VRAM 推理
量化减少了模型大小和内存占用,同时尽可能保持准确性。
- 低位模型(Q4_K) → 内存占用最小,但精度可能较低。
- 高位模型(Q6_K、Q8_0) → 准确性更高,但需要更多内存。
📌 使用量化模型的情况:
✔ 您在CPU上运行推理,需要一个优化的模型。
✔ 您的设备VRAM 较低,无法加载全精度模型。
✔ 您希望在保持合理准确性的同时减少内存占用。
📌 避免使用量化模型的情况:
❌ 您需要最高精度(全精度模型更适合)。
❌ 您的硬件有足够的 VRAM 支持更高精度的格式(BF16/F16)。
极低位量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
这些模型针对极致内存效率进行了优化,非常适合低功耗设备或大规模部署,其中内存是关键限制因素。
模型格式选择摘要表
模型格式 |
精度 |
内存占用 |
设备要求 |
最佳使用场景 |
BF16 |
最高 |
高 |
支持 BF16 的 GPU/CPU |
高速推理,减少内存占用 |
F16 |
高 |
高 |
支持 FP16 的设备 |
当 BF16 不可用时,GPU 推理 |
Q4_K |
中低 |
低 |
CPU 或低 VRAM 设备 |
内存受限环境的最佳选择 |
Q6_K |
中 |
中等 |
内存较多的 CPU |
量化模型中更好的准确性 |
Q8_0 |
高 |
中等 |
具有足够 VRAM 的 CPU 或 GPU |
量化模型中最高的准确性 |
IQ3_XS |
极低 |
极低 |
超低内存设备 |
极致内存效率,但准确性低 |
Q4_0 |
低 |
低 |
ARM 或低内存设备 |
llama.cpp 可针对 ARM 设备优化 |
包含的文件及详情
Fin-R1-bf16.gguf
- 模型权重以BF16保存。
- 如果您想将模型重新量化为其他格式,请使用此文件。
- 如果您的设备支持BF16 加速,则是最佳选择。
Fin-R1-f16.gguf
- 模型权重以F16存储。
- 如果您的设备支持FP16,尤其是在 BF16 不可用时使用。
Fin-R1-bf16-q8_0.gguf
- 输出和嵌入保持为BF16。
- 其他所有层量化为Q8_0。
- 如果您的设备支持BF16,并且您需要一个量化版本,请使用此文件。
Fin-R1-f16-q8_0.gguf
- 输出和嵌入保持为F16。
- 其他所有层量化为Q8_0。
Fin-R1-q4_k.gguf
- 输出和嵌入量化为Q8_0。
- 其他所有层量化为Q4_K。
- 适用于内存有限的 CPU 推理。
Fin-R1-q4_k_s.gguf
- 最小的Q4_K变体,以准确性为代价减少内存占用。
- 适用于极低内存配置。
Fin-R1-q6_k.gguf
- 输出和嵌入量化为Q8_0。
- 其他所有层量化为Q6_K。
Fin-R1-q8_0.gguf
- 完全Q8量化模型,准确性更高。
- 需要更多内存,但提供更高的精度。
Fin-R1-iq3_xs.gguf
- IQ3_XS量化,针对极致内存效率优化。
- 适用于超低内存设备。
Fin-R1-iq3_m.gguf
- IQ3_M量化,提供中等块大小以提高准确性。
- 适用于低内存设备。
Fin-R1-q4_0.gguf
- 纯Q4_0量化,针对ARM 设备优化。
- 适用于低内存环境。
- 如需更高准确性,推荐使用 IQ4_NL。
🚀 如果您觉得这些模型有用
请点赞 ❤ 。同时,如果您能测试我的网络监控助手,我将非常感激 👉 网络监控助手。
💬 点击聊天图标(主页面和仪表板页面的右下角)。选择一个 LLM;在 LLM 类型之间切换 TurboLLM -> FreeLLM -> TestLLM。
我正在测试的内容
我正在针对我的网络监控服务测试函数调用。使用小型开源模型。我正在研究的问题是“模型可以小到什么程度,同时仍能正常运行”。
🟡 TestLLM – 在 CPU 虚拟机的 6 个线程上运行当前测试模型,使用 llama.cpp(加载大约需要 15 秒。推理速度较慢,且一次只能处理一个用户提示——仍在优化扩展性!)。如果您感兴趣,我很乐意分享它的工作原理!
其他可用的 AI 助手
🟢 TurboLLM – 使用 gpt-4o-mini,速度极快!注意:由于 OpenAI 模型价格较高,令牌数量有限,但您可以登录或下载免费的网络监控代理以获取更多令牌,或者使用 TestLLM。
🔵 HugLLM – 运行开源 Hugging Face 模型,速度快,运行小型模型(≈8B),因此质量较低,可获得 2 倍更多的令牌(取决于 Hugging Face API 的可用性)。
Fin-R1:通过强化学习驱动的金融推理大模型


📄 中文 | EN
Fin-R1 是一款针对金融领域复杂推理的大型语言模型,由上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合财跃星辰研发并开源发布。该模型以 Qwen2.5-7B-Instruct 为基座,通过高质量的可验证金融问题微调训练,最终表现在多个金融领域基准测试上的表现达到参评模型的SOTA水平。
代码: https://github.com/SUFE-AIFLM-Lab/Fin-R1
📌 目录
💡 场景应用
Fin-R1 是一款专为金融推理领域设计的大语言模型,采用轻量化的 7B 参数量级架构。在显著降低部署成本的同时,该模型通过在针对金融推理场景的高质量思维链数据上采用 SFT(监督微调)和 RL(强化学习)两阶段训练,为模型在金融领域的应用提供了坚实的理论支撑、业务规则、决策逻辑以及技术实现能力,从而有效提升模型的金融复杂推理能力,为银行、证券、保险以及信托等金融核心业务场景提供有力支持。
金融代码
金融代码是指在金融领域中用于实现各种金融模型、算法和分析任务的计算机编程代码,涵盖了从简单的财务计算到复杂的金融衍生品定价、风险评估和投资组合优化等多个方面,以方便金融专业人士进行数据处理、统计分析、