P

Phi 3 Small 8k Instruct Onnx Cuda

由 microsoft 开发
Phi-3 Small是一个70亿参数的轻量级前沿开源模型,针对NVIDIA GPU优化的ONNX版本,支持8K上下文长度,具备强推理能力。
下载量 115
发布时间 : 5/19/2024
模型介绍
内容详情
替代品

模型简介

本模型为Phi-3 Small-8K-Instruct的ONNX Runtime推理转换版,通过ONNX Runtime在服务器平台、Windows和Linux等设备的GPU上运行。

模型特点

高性能推理
FP16 CUDA版本比PyTorch快达4倍,INT4 CUDA版本快达10.9倍
轻量级设计
70亿参数规模,在保持高性能的同时降低资源消耗
长上下文支持
支持8K token的上下文长度,适合处理长文本任务
多平台兼容
通过ONNX Runtime支持多种设备和操作系统

模型能力

文本生成
指令遵循
常识推理
语言理解
数学计算
代码生成
逻辑推理

使用案例

对话系统
智能助手
构建高性能、低延迟的对话助手
在A100 GPU上实现每秒74.62 tokens的生成速度
内容生成
长文本生成
利用8K上下文长度生成连贯的长篇内容