Bytedance BAGEL 7B MoT INT8
Apache-2.0
BAGEL是一个开源的7B活跃参数多模态基础模型,支持多模态理解与生成任务
文本生成图像
B
Gapeleon
190
20
Meta Llama 3.1 8B Instruct Quantized.w8a8
这是Meta-Llama-3.1-8B-Instruct模型的INT8量化版本,通过权重量化和激活量化优化,适用于多语言商业和研究用途。
大型语言模型
Transformers
支持多种语言
M
RedHatAI
9,087
16
Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8
Apache-2.0
这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat和Neural Magic优化,适用于快速响应和低延迟场景。
文本到文本
Safetensors
支持多种语言
M
RedHatAI
833
2
Qwq 32B INT8 W8A8
Apache-2.0
QWQ-32B的INT8量化版本,通过减少权重和激活的表示位数来优化性能
大型语言模型
Transformers
英语
Q
ospatch
590
4
Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,支持视觉-文本输入和文本输出,通过INT8权重量化优化推理效率
图像生成文本
Transformers
英语
Q
RedHatAI
1,992
3
Deepseek R1 Distill Qwen 32B Quantized.w8a8
MIT
DeepSeek-R1-Distill-Qwen-32B的INT8量化版本,通过权重量化和激活值量化减少显存占用并提升计算效率。
大型语言模型
Transformers
D
neuralmagic
2,324
9
Deepseek R1 Distill Qwen 14B Quantized.w8a8
MIT
DeepSeek-R1-Distill-Qwen-14B的量化版本,通过INT8量化优化了权重和激活,降低了GPU内存需求并提高了计算效率。
大型语言模型
Transformers
D
neuralmagic
765
2
Qwen2.5 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-7B-Instruct的INT8量化版本,适用于商业和研究用途的多语言场景,优化了内存需求和计算吞吐量。
大型语言模型
英语
Q
RedHatAI
412
1
FLUX.1 Dev Qint8
其他
FLUX.1-dev是一个文本生成图像的扩散模型,已通过Optimum Quanto量化为INT8格式,适用于非商业用途。
文本生成图像
英语
F
Disty0
2,617
12
Bge Large En V1.5 Quant
MIT
BGE-large-en-v1.5的量化(INT8)ONNX变体,通过DeepSparse进行推理加速
文本嵌入
Transformers
英语
B
RedHatAI
1,094
22
Roberta Base Go Emotions Onnx
MIT
这是RoBERTa-base-go_emotions模型的ONNX版本,支持全精度和INT8量化,用于多标签情感分析任务。
文本分类
Transformers
英语
R
SamLowe
41.50k
20
Vit Base Patch16 224 Int8 Static Inc
Apache-2.0
这是一个使用Intel® Neural Compressor进行训练后静态量化的INT8 PyTorch模型,基于Google的ViT模型微调而来,在保持较高准确率的同时大幅减小模型体积。
图像分类
Transformers
V
Intel
82
1
Distilbert Base Uncased Distilled Squad Int8 Static Inc
Apache-2.0
这是DistilBERT基础未编码模型的INT8量化版本,专为问答任务设计,通过训练后静态量化优化了模型大小和推理速度。
问答系统
Transformers
D
Intel
1,737
4
Ibert Roberta Large
I-BERT是RoBERTa-large的纯整数量化版本,通过INT8存储参数并使用整数运算执行推理,最高可实现4倍推理加速。
大型语言模型
Transformers
I
kssteven
45
0
Bert Large Uncased Whole Word Masking Squad Int8 0001
基于全词掩码技术预训练并在SQuAD v1.1上微调的BERT-large英文问答模型,量化至INT8精度
问答系统
Transformers
B
dkurt
23
0