Phi-3-mini-4k-instruct-onnx-web开源模型 - 加速浏览器内推理轻松上手

首页

Phi 3 Mini 4k Instruct Onnx Web

由 microsoft 开发

适用于浏览器内推理的Phi-3 Mini-4K-Instruct ONNX模型，通过ONNX Runtime Web加速浏览器中的推理。

大型语言模型

Transformers

开源协议:MIT #浏览器内推理 #轻量级对话模型 #WebGPU加速

下载量 243

发布时间 : 5/17/2024

模型简介

这是一个轻量级、最先进的开源模型，拥有38亿参数，专注于高质量和推理密集的特性，适用于常识、语言理解、数学、代码、长上下文和逻辑推理等任务。

模型特点

浏览器内推理

完全在浏览器中运行，无需服务器支持，通过ONNX Runtime Web加速。

轻量级高性能

38亿参数的轻量级模型，在参数少于130亿的模型中展现了强大且最先进的性能。

WebGPU加速

推荐使用WebGPU后端高效运行，在NVIDIA GeForce RTX 4090上可达约42个令牌/秒。

优化存储

模型为fp16，权重采用int4块量化，确保模型和外部数据文件保持在2GB以下，便于在Chromium中缓存。

模型能力

文本生成

常识推理

语言理解

数学计算

代码生成

逻辑推理

使用案例

对话系统

智能聊天机器人

构建完全在浏览器中运行的对话式AI应用。

低延迟的交互体验

教育

学习助手

帮助学生解答数学、编程等问题。

提供即时、准确的解答

🚀 Phi-3 Mini-4K-Instruct ONNX模型，用于浏览器内推理

本项目提供了一个可在浏览器内运行的Phi-3 Mini-4K-Instruct ONNX模型。它能让你在浏览器中直接运行Phi3-mini-4K模型，无需额外的服务器支持。借助ONNX Runtime Web，该模型在浏览器中的推理速度得到了显著优化。你可以点击这里查看演示。

Phi-3-Mini-4K-Instruct是一个具有38亿参数的轻量级、先进的开源模型。它基于Phi-3数据集进行训练，该数据集包含合成数据和经过筛选的公开网站数据，注重高质量和推理密集特性。在常识、语言理解、数学、代码、长上下文和逻辑推理等基准测试中，Phi-3 Mini-4K-Instruct在参数少于130亿的模型中表现出色。

🚀 快速开始

运行环境

ONNX Runtime Web 是一个JavaScript库，可让Web开发者直接在浏览器中部署机器学习模型，并提供多种支持硬件加速的后端。为了高效运行Phi-3-mini，建议使用WebGPU后端。

支持设备和浏览器

支持WebGPU的设备和浏览器包括：Mac、Windows、ChromeOS系统下的Chrome 113+和Edge 113+，以及安卓系统下的Chrome 121+。你可以点击这里查看各浏览器对WebGPU的支持情况。

运行示例

这里有一个端到端示例，展示了如何使用ONNX Runtime结合WebGPU运行优化后的Web版Phi3-mini-4K。

📊 性能指标

模型的性能会因GPU的不同而有所差异，GPU性能越强，推理速度越快。在NVIDIA GeForce RTX 4090上，推理速度约为每秒42个token。

🔧 技术细节

不同平台模型获取

若你需要获取适用于服务器平台、Windows、Linux、Mac桌面和移动设备的其他优化后的Phi3-mini-4k ONNX模型，请访问Phi-3-mini-4k-instruct onnx model。

模型差异

与其他版本相比，Web版模型具有以下特点：

模型权重采用fp16和int4块量化。
“logits”输出为fp32。
模型使用MHA而非GQA。
onnx和外部数据文件需小于2GB，以便在Chromium中缓存。

模型优化

若你想优化微调后的Phi3-mini-4k模型，使其能在ONNX Runtime Web上运行，请参考此Olive示例。Olive是一个易于使用的模型优化工具，可生成优化后的ONNX模型，以在不同平台上高效运行。

📚 模型描述

属性	详情
开发者	Microsoft
模型类型	ONNX
推理语言 (NLP)	JavaScript
许可证	MIT
模型说明	这是用于ONNX Runtime推理的Phi-3 Mini-4K-Instruct模型的Web版本。