Qwen3 30B A3B Quantized.w4a16
Apache-2.0
Qwen3-30B-A3B的INT4量化版本,通过权重量化减少75%的磁盘和GPU内存需求,保持高性能。
大型语言模型
Transformers
Q
RedHatAI
379
2
Qwen3 32B Quantized.w4a16
Apache-2.0
Qwen3-32B的INT4量化版本,通过权重量化减少75%的磁盘和GPU内存需求,保持高性能
大型语言模型
Transformers
Q
RedHatAI
2,213
5
Deepseek R1 Quantized.w4a16
MIT
DeepSeek-R1的INT4权重量化版本,通过减少权重位数降低GPU内存和磁盘空间需求约50%,保持原始模型性能。
大型语言模型
Safetensors
D
RedHatAI
119
4
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)优化发布,适用于快速响应的对话代理和低延迟推理场景。
文本生成图像
Safetensors
支持多种语言
M
RedHatAI
219
1
Gemma 3 12b It GPTQ 4b 128g
该模型是对google/gemma-3-12b-it进行INT4量化的版本,通过GPTQ算法将参数从16比特降至4比特,显著减少了磁盘空间和GPU内存需求。
图像生成文本
Transformers
G
ISTA-DASLab
1,175
2
Gemma 3 4b It GPTQ 4b 128g
基于gemma-3-4b-it模型进行INT4量化的版本,显著减少存储和计算资源需求
图像生成文本
Transformers
G
ISTA-DASLab
502
2
Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g
Apache-2.0
本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本,通过GPTQ算法将权重从16位降至4位,显著减少磁盘大小和GPU内存需求。
大型语言模型
M
ISTA-DASLab
21.89k
13
Gemma 3 27b It GPTQ 4b 128g
该模型是对gemma-3-27b-it进行INT4量化的版本,通过减少每个参数的比特数来降低磁盘和GPU内存需求。
图像生成文本
Transformers
G
ISTA-DASLab
32.15k
25
Whisper Large V3.w4a16
Apache-2.0
这是openai/whisper-large-v3的量化版本,采用INT4权重量化和FP16激活量化,适用于vLLM推理。
语音识别
Transformers
英语
W
nm-testing
20
1
Svdq Int4 Flux.1 Depth Dev
其他
FLUX.1-Depth-dev的INT4量化版本,能够根据文本描述生成图像,同时遵循输入图像的结构。
图像生成
英语
S
mit-han-lab
9,085
3
FLUX.1 Dev Qint4
其他
FLUX.1-dev 是一个文本生成图像的模型,已使用 Optimum Quanto 量化为 INT4 格式,适用于非商业用途。
文本生成图像
英语
F
Disty0
455
12
Meta Llama 3.1 70B Instruct AWQ INT4
Llama 3.1 70B Instruct的INT4量化版本,基于AutoAWQ技术优化,适用于多语言对话场景。
大型语言模型
Transformers
支持多种语言
M
hugging-quants
80.59k
100
Meta Llama 3.1 8B Instruct AWQ INT4
Llama 3.1 8B Instruct的INT4量化版本,基于AutoAWQ工具进行量化,适用于多语言对话场景。
大型语言模型
Transformers
支持多种语言
M
hugging-quants
348.23k
67
Whisper Large Onnx Int4 Inc
Apache-2.0
Whisper是一种预训练模型,用于自动语音识别(ASR)和语音翻译。
语音识别
Transformers
W
Intel
44
8