I

Internvl3 38B FP8 Dynamic

由 ConfidentialMind 开发
这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本,针对使用 vLLM 进行高性能推理进行了优化,在视觉语言任务上实现了约 2 倍的加速,同时精度损失极小。
下载量 5,173
发布时间 : 5/31/2025

模型简介

一个优化后的视觉语言模型,通过 FP8 静态量化实现高性能推理,适用于多模态任务。

模型特点

FP8 静态量化
通过预计算的激活尺度实现最大推理性能
视觉语言优化
专门的量化方法,保留了视觉理解能力
支持 vLLM
可与 vLLM 无缝集成,便于生产部署
内存高效
与原始的 FP16 版本相比,内存使用减少约 50%
性能提升
在 H100/L40S GPU 上推理速度最高可提升 2 倍

模型能力

图像理解
文本生成
视觉问答
多模态推理

使用案例

生产环境服务
实时图像分析
用于需要高吞吐量的视觉语言模型服务
约 2 倍的推理速度提升
文档处理
文档 AI 和 OCR
处理包含图像和文本的文档
交互应用
多模态聊天机器人
构建能够理解图像和文本的虚拟助手
AIbase
智启未来,您的人工智能解决方案智库
简体中文