Q

Qwen3 30B A3B FP8 Dynamic

由 khajaphysist 开发
基于Qwen/Qwen3-30B-A3B模型的FP8动态量化版本,优化了在安培架构显卡上的推理效率
下载量 403
发布时间 : 4/29/2025
模型介绍
内容详情
替代品

模型简介

这是一个支持FP8动态量化的大语言模型,特别针对NVIDIA安培架构显卡(如3090)进行了优化,能够在保持较高推理质量的同时提升计算效率

模型特点

FP8动态量化
支持FP8精度动态量化,在安培架构显卡上实现高效推理
多GPU并行
支持通过Tensor Parallelism在多GPU上分布式运行
高效推理
优化了内存利用率,支持高并发请求处理

模型能力

文本生成
对话系统
内容创作
代码生成
知识问答

使用案例

智能助手
聊天机器人
构建流畅对话的智能聊天助手
能够进行多轮自然对话
内容创作
文章生成
根据提示生成连贯的文章或段落
可生成符合主题的文本内容