FP8量化推理

# FP8量化推理

Qwen3-32B-FP8是通义千问系列最新一代32.8B参数大语言模型，支持思维与非思维模式切换，具备卓越的推理、指令遵循和智能体能力。

大型语言模型

Qwen3-8B-FP8是通义千问系列大语言模型的最新版本，提供FP8量化版本，支持思维模式与非思维模式的无缝切换，具备强大的推理能力和多语言支持。

大型语言模型

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，由Neural Magic优化发布。

图像生成文本

Transformers 英语

Hidream I1 Full FP8

170亿参数开源图像生成基础模型，支持多种风格，生成速度快且质量高

图像生成英语

Llama 3.1 8B Instruct FP8

Meta Llama 3.1 8B Instruct模型的FP8量化版本，采用优化的transformer架构的自回归语言模型，支持128K上下文长度。

大型语言模型

Meta Llama 3.1 405B Instruct FP8 Dynamic

Meta-Llama-3.1-405B-Instruct的FP8量化版本，适用于多语言的商业和研究用途，特别优化用于助手机器人场景。

大型语言模型

Transformers 支持多种语言

Meta Llama 3 8B Instruct FP8 KV

Meta-Llama-3-8B-Instruct模型经过FP8权重和激活值的逐张量量化，适用于vLLM >= 0.5.0进行推理。该模型检查点还包含FP8量化KV缓存的逐张量缩放参数。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24