D

Deepseek R1 Distill Qwen 32B Quantized.w8a8

由 neuralmagic 开发
DeepSeek-R1-Distill-Qwen-32B的INT8量化版本,通过权重量化和激活值量化减少显存占用并提升计算效率。
下载量 2,324
发布时间 : 2/5/2025
模型介绍
内容详情
替代品

模型简介

基于DeepSeek-R1-Distill-Qwen-32B的量化模型,采用INT8量化技术优化权重和激活值,显著降低显存需求和提升推理速度。

模型特点

INT8量化
权重和激活值均采用INT8量化,减少约50%的GPU显存占用,提升矩阵乘法计算吞吐量约2倍。
高效推理
通过vLLM后端支持高效部署,优化大规模语言模型的推理性能。
高精度保持
量化后模型在多项基准测试中保持原始模型99%以上的准确率。

模型能力

文本生成
对话系统
代码生成
数学推理

使用案例

对话系统
智能客服
用于构建高效的智能客服系统,处理用户查询。
支持多轮对话,响应速度快。
代码生成
编程辅助
帮助开发者生成代码片段或解决编程问题。
在HumanEval基准测试中pass@1达到85.8%。