INT8量化

# INT8量化

Bytedance BAGEL 7B MoT INT8

BAGEL是一个开源的7B活跃参数多模态基础模型，支持多模态理解与生成任务

文本生成图像

Meta Llama 3.1 8B Instruct Quantized.w8a8

这是Meta-Llama-3.1-8B-Instruct模型的INT8量化版本，通过权重量化和激活量化优化，适用于多语言商业和研究用途。

大型语言模型

Transformers 支持多种语言

Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8

这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat和Neural Magic优化，适用于快速响应和低延迟场景。

文本到文本

Safetensors 支持多种语言

Qwq 32B INT8 W8A8

QWQ-32B的INT8量化版本，通过减少权重和激活的表示位数来优化性能

大型语言模型

Transformers 英语

Mistral Small 24B Instruct 2501 Quantized.w8a8

经过INT8量化的24B参数Mistral指令微调模型，显著降低GPU内存需求并提高计算吞吐量

大型语言模型

Safetensors 支持多种语言

Qwen2.5 VL 7B Instruct Quantized.w8a8

Qwen2.5-VL-7B-Instruct的量化版本，支持视觉-文本输入和文本输出，通过INT8权重量化优化推理效率

图像生成文本

Transformers 英语

Deepseek R1 Distill Qwen 32B Quantized.w8a8

DeepSeek-R1-Distill-Qwen-32B的INT8量化版本，通过权重量化和激活值量化减少显存占用并提升计算效率。

大型语言模型

Deepseek R1 Distill Qwen 14B Quantized.w8a8

DeepSeek-R1-Distill-Qwen-14B的量化版本，通过INT8量化优化了权重和激活，降低了GPU内存需求并提高了计算效率。

大型语言模型

Qwen2.5 7B Instruct Quantized.w8a8

Qwen2.5-7B-Instruct的INT8量化版本，适用于商业和研究用途的多语言场景，优化了内存需求和计算吞吐量。

大型语言模型英语

FLUX.1 Dev Qint8

FLUX.1-dev是一个文本生成图像的扩散模型，已通过Optimum Quanto量化为INT8格式，适用于非商业用途。

文本生成图像英语

Meta Llama 3.1 70B Instruct Quantized.w8a8

这是Meta-Llama-3.1-70B-Instruct的量化版本，通过INT8权重量化降低GPU内存需求和磁盘空间，同时提高计算吞吐量，适用于多语言商业和研究场景。

大型语言模型

Transformers 支持多种语言

Meta Llama 3 70B Instruct Quantized.w8a16

Meta-Llama-3-70B-Instruct 的量化版本，主要用于英文的商业和研究用途，能高效地进行类助手聊天。

大型语言模型

Transformers 英语

BAAI Bge M3 Int8

BAAI/bge-m3的ONNX INT8量化版本，适用于密集检索任务，优化了与Vespa Embedding的兼容性。

Bge Large En V1.5 Quant

BGE-large-en-v1.5的量化(INT8)ONNX变体，通过DeepSparse进行推理加速

Transformers 英语

Roberta Base Go Emotions Onnx

这是RoBERTa-base-go_emotions模型的ONNX版本，支持全精度和INT8量化，用于多标签情感分析任务。

Transformers 英语

Vit Base Patch16 224 Int8 Static Inc

这是一个使用Intel® Neural Compressor进行训练后静态量化的INT8 PyTorch模型，基于Google的ViT模型微调而来，在保持较高准确率的同时大幅减小模型体积。

Distilbert Base Uncased Distilled Squad Int8 Static Inc

这是DistilBERT基础未编码模型的INT8量化版本，专为问答任务设计，通过训练后静态量化优化了模型大小和推理速度。

Ibert Roberta Large

I-BERT是RoBERTa-large的纯整数量化版本，通过INT8存储参数并使用整数运算执行推理，最高可实现4倍推理加速。

大型语言模型

Bert Large Uncased Whole Word Masking Squad Int8 0001

基于全词掩码技术预训练并在SQuAD v1.1上微调的BERT-large英文问答模型，量化至INT8精度

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24