Q

Qwen2.5 72B Instruct GGUF

由 Mungert 开发
Qwen2.5-72B-Instruct的GGUF量化版本,支持多种精度格式,适用于不同硬件环境的高效推理。
下载量 1,439
发布时间 : 4/9/2025
模型介绍
内容详情
替代品

模型简介

基于Qwen2.5-72B-Instruct的GGUF量化模型,提供从BF16到极低位量化(如IQ3_XS)的多种格式,适用于GPU、CPU及低内存设备的推理需求。

模型特点

多精度支持
提供BF16、F16及多种量化格式(Q4_K至Q8_0),适配不同硬件需求。
硬件优化
针对GPU(BF16/FP16加速)、CPU(量化模型)及ARM设备(Q4_0)分别优化。
极致内存效率
IQ3_XS等极低位量化模型可在超低内存设备运行,适合边缘部署。

模型能力

多语言文本生成
指令跟随
低资源推理

使用案例

高效推理
GPU加速生成
使用BF16/F16格式在支持硬件上实现高速文本生成。
降低延迟,提升吞吐量
边缘设备部署
通过Q4_K或IQ3_XS量化在树莓派等设备运行模型。
内存占用减少50%以上
多语言应用
跨语言聊天助手
支持13种语言的交互式对话。