Q

Qwq 32B INT8 W8A8

由 ospatch 开发
QWQ-32B的INT8量化版本,通过减少权重和激活的表示位数来优化性能
下载量 590
发布时间 : 3/13/2025
模型介绍
内容详情
替代品

模型简介

QWQ-32B的INT8量化版本,优化了GPU内存需求和计算吞吐量,适用于文本生成任务

模型特点

INT8量化
权重和激活均采用INT8量化,减少GPU内存需求和磁盘空间
高效计算
通过量化提升矩阵乘法计算吞吐量约2倍
与vLLM兼容
支持通过vLLM Docker镜像部署,提供OpenAI兼容的API

模型能力

文本生成

使用案例

自然语言处理
文本生成
用于生成连贯的文本内容