D

Deepseek R1 Distill Qwen 32B Quantized.w8a8

由 RedHatAI 开发
DeepSeek-R1-Distill-Qwen-32B的量化版本,通过INT8权重量化和激活量化减少内存需求并提高计算效率
下载量 3,572
发布时间 : 2/5/2025

模型简介

基于Qwen2ForCausalLM架构的量化大语言模型,适用于文本生成任务

模型特点

高效量化
采用INT8权重量化和激活量化,显著减少GPU内存需求和磁盘空间占用
高性能推理
通过vLLM后端支持高效部署,在单流部署中可实现1.8倍加速
高精度保持
量化后模型在多项基准测试中保持原始模型99%以上的准确率

模型能力

文本生成
多轮对话
代码生成
文档摘要
问答系统

使用案例

对话系统
多轮对话
支持复杂的多轮对话场景
在512/256令牌配置下达到325 QPS(A6000单卡)
代码相关
代码补全
支持编程语言的代码补全
HumanEval pass@1达到85.8%准确率
信息检索
RAG应用
适合检索增强生成场景
在1024/128令牌配置下达到622 QPS(A6000单卡)
AIbase
智启未来,您的人工智能解决方案智库
简体中文