QWQ-32B-FP8开源AI模型 - 免费部署，高速推理还能保持高准确率

首页

QWQ 32B FP8

由 qingcheng-ai 开发

QwQ-32B-FP8 是 QwQ-32B 模型的 FP8 量化版本，保持了与 BF16 版本几乎相同的准确率，同时支持更快的推理速度。

大型语言模型

Transformers

开源协议:Apache-2.0 #FP8量化 #高效推理 #MMLU基准

下载量 144

发布时间 : 3/21/2025

模型简介

FP8 量化版本的 QwQ-32B 模型，适用于高效推理任务，性能与原始 BF16 版本相当。

模型特点

高效推理

FP8 量化版本在保持与 BF16 版本相同准确率的同时，支持更快的推理速度。

高性能

在 MMLU 基准测试中表现优异，与原始 BF16 版本得分相同。

轻量化

通过 FP8 量化技术减少模型体积，适合资源有限的环境。

模型能力

文本生成

高效推理

使用案例

自然语言处理

问答系统

可用于构建高性能问答系统，处理复杂查询。

在 MMLU 基准测试中得分 61.2，表现优异。

文本生成

适用于各种文本生成任务，如内容创作、摘要生成等。

数据格式	MMLU分数
BF16官方版	61.2
FP8量化版	61.2
Q8_0 (INT8)	59.1
AWQ (INT4)	53.4

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

QWQ 32B FP8

模型简介

模型特点

模型能力

使用案例

🚀 FP8量化QwQ - 32B模型

🚀 快速开始

✨ 主要特性

📚 详细文档

模型描述

评估结果

📄 许可证

📞 联系我们