SVDQuant是一种针对4比特权重和激活的后训练量化技术,能很好地保持视觉保真度。在120亿参数的FLUX.1-dev模型上,相比BF16模型实现了3.6倍的内存压缩。
下载量 60.72k
发布时间 : 11/25/2024
模型简介
基于FLUX.1-dev模型的INT4量化版本,采用SVDQuant技术实现高效4比特权重和激活量化,显著提升推理速度并降低内存占用。
模型特点
高效4比特量化
采用SVDQuant技术实现4比特权重和激活量化,相比BF16模型实现3.6倍内存压缩
优化的推理速度
在16GB显存的笔记本4090 GPU上比16位模型提速8.7倍,比NF4 W4A16基线快3倍
视觉保真度高
在PixArt-∑模型上,其视觉质量显著优于其他W4A4甚至W4A8基线
创新的低秩分解
通过SVD将权重分解为低秩分量和残差,低秩分支以16比特精度运行从而缓解量化难度
模型能力
文本生成图像
高分辨率图像生成
快速推理
使用案例
创意设计
概念艺术生成
根据文本描述快速生成概念艺术图像
高质量视觉输出,适合创意工作流程
教育
教学素材生成
根据教学内容自动生成配套视觉素材
快速创建符合教学需求的图像
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文