低延迟推理

# 低延迟推理

Phi Mini MoE Instruct GGUF

Phi-mini-MoE是一个轻量级的专家混合（MoE）模型，适用于英语的商业和研究场景，在资源受限环境和低延迟场景中表现出色。

大型语言模型英语

Arch Router 1.5B.gguf

Arch-Router是一个1.5B参数的偏好对齐路由框架模型，用于将查询映射到领域-操作偏好以进行模型路由决策。

大型语言模型

Transformers 英语

Sarvam Finetune

这是一个发布在Hub上的transformers模型，具体功能和详细信息待补充。

大型语言模型

Unlearn Tofu Llama 3.2 1B Instruct Forget10 SimNPO Lr1e 05 B4.5 A1 D0 G0.25 Ep5

这是一个已上传到 Hugging Face Hub 的 transformers 模型，具体信息待补充。

大型语言模型

open-unlearning

Qwen3 14b Ug40 Pretrained

这是一个自动生成的transformers模型卡片，缺少具体模型信息。

大型语言模型

NeuroBERT-Mini 是从 google/bert-base-uncased 衍生的轻量级自然语言处理模型，专为边缘和物联网设备的实时推理优化。

大型语言模型

基于 speechbrain/lang-id-commonlanguage_ecapa 的多语言音频分类模型，支持5种印度语言识别

音频分类支持多种语言

DMind-1是基于Qwen3-32B打造的Web3专家模型，通过监督式指令微调与人类反馈强化学习专为Web3生态系统优化，在任务准确性、内容安全性和专家级交互对齐方面实现显著提升。

大型语言模型

Transformers 支持多种语言

这是一个在Hugging Face Hub上发布的transformers模型，具体信息待补充。

大型语言模型

Japanese Reranker Tiny V2

这是一个非常小巧且快速的日语重排序模型，适用于提升RAG系统的精度，在CPU或边缘设备上也能高效运行。

文本嵌入日语

Japanese Reranker Xsmall V2

这是一个非常小巧且快速的日语重排序模型，适用于提升RAG系统的精度。

文本嵌入日语

Phi 4 Reasoning GGUF

Phi-4-reasoning是基于Phi-4微调的先进推理模型，通过监督微调与强化学习，在数学、科学和编码等领域展现出卓越的推理能力。

大型语言模型

TreeHop是一个轻量级的嵌入级框架，用于高效处理多跳问答中的查询嵌入生成与过滤，显著降低计算开销。

Qwen3 30B A3B FP8 Dynamic

基于Qwen/Qwen3-30B-A3B模型的FP8动态量化版本，优化了在安培架构显卡上的推理效率

大型语言模型

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，由Neural Magic优化发布。

图像生成文本

Transformers 英语

Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8

这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat和Neural Magic优化，适用于快速响应和低延迟场景。

文本到文本

Safetensors 支持多种语言

Gemma 3 4b It Int8 Asym Ov

基于OpenVINO优化的Gemma 3 4B参数模型，支持文本到文本及视觉文本推理

图像生成文本

Faster Distil Whisper Large V3.5

Distil-Whisper是Whisper模型的蒸馏版本，针对自动语音识别(ASR)任务进行了优化，提供更快的推理速度。

语音识别英语

Mistral Small 3.1 24B Instruct 2503 FP8 Dynamic

这是一个基于Mistral3架构的24B参数条件生成模型，经过FP8动态量化优化，适用于多语言文本生成和视觉理解任务。

文本到文本

Safetensors 支持多种语言

Faster Distil Whisper Large V3.5

基于Distil-Whisper large-v3.5转换的CTranslate2格式模型，用于高效语音识别

语音识别英语

Mistral Small 3.1 24B Instruct 2503

Mistral Small 3.1是一个240亿参数的多模态大语言模型，具备视觉理解能力和128k长上下文处理能力，适用于多种任务。

图像生成文本支持多种语言

Sana Sprint 1.6B 1024px

SANA-Sprint是超高效的文本生成图像扩散模型，将推理步骤从20步缩减至1-4步的同时保持顶尖性能。

图像生成支持多种语言

Efficient-Large-Model

RWKV7 Goose World3 2.9B HF

RWKV-7模型采用闪存线性注意力格式，支持多语言文本生成任务，参数量达29亿。

大型语言模型支持多种语言

Distil Large V3.5 Ct2

Distil-Whisper是Whisper模型的蒸馏版本，通过大规模伪标签技术实现高效语音识别

语音识别英语

Canary 180m Flash

NVIDIA NeMo Canary Flash 是一个多语言多任务语音模型，支持英语、德语、法语和西班牙语的自动语音识别和翻译任务。

语音识别支持多种语言

Canary 1b Flash

NVIDIA NeMo Canary Flash 是一个多语言多任务模型家族，在多个语音基准测试中实现了最先进的性能。支持四种语言的自动语音识别和翻译任务。

语音识别支持多种语言

Mistral Small 24B Instruct 2501 Quantized.w8a8

经过INT8量化的24B参数Mistral指令微调模型，显著降低GPU内存需求并提高计算吞吐量

大型语言模型

Safetensors 支持多种语言

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型，融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入，生成文本输出，并具备128K标记的上下文长度。

多模态融合

Transformers 支持多种语言

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一个轻量级开源多模态基础模型，支持文本、图像和音频输入，生成文本输出，具备128K标记的上下文长度。

多模态融合

Transformers 支持多种语言

Pixtral 12b Quantized.w8a8

基于mgoin/pixtral-12b的INT8量化版本，支持视觉-文本多模态任务，优化了推理效率

图像生成文本

Transformers 英语

Qwen2.5 VL 7B Instruct Quantized.w8a8

Qwen2.5-VL-7B-Instruct的量化版本，支持视觉-文本输入和文本输出，通过INT8权重量化优化推理效率

图像生成文本

Transformers 英语

Qwen2.5 VL 3B Instruct FP8 Dynamic

Qwen2.5-VL-3B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，优化了推理效率。

文本生成图像

Transformers 英语

一个速度快且准确度高的神经机器翻译模型，用于中文到英文的翻译

机器翻译支持多种语言

Mistral Small 24B Instruct 2501 AWQ

Mistral Small 3 (2501版本)是一个24B参数的指令微调大语言模型，在70B参数以下类别中树立了新标杆，具有卓越的知识密度和多语言支持能力。

大型语言模型

Transformers 支持多种语言

基于YOLOv11的轻量级反恐精英2玩家检测模型，适用于实时目标检测场景

Mxbai Rerank Base V1

这是一个基于Transformers架构的重新排序(Reranker)模型，主要用于信息检索和搜索结果优化任务。

Transformers 英语

Lb Reranker 0.5B V1.0

LB重排序器是用于判断查询与文本片段相关性的模型，支持95+种语言，适用于检索任务中的排序和重排序。

大型语言模型

Transformers 支持多种语言

Gemma 2 2b It Flax

这是一个自动生成的Transformers模型卡片，具体模型信息待补充。

大型语言模型

Whisper Large V3 Distil Multi7 V0.2

一个多语言蒸馏版Whisper模型，支持7种欧洲语言的自动语音识别，具有语码转换能力

Transformers 支持多种语言

Kljrklqejr 23 11 24

由OMEGA Labs与Bittensor合作开发的任意到任意转换模型，专注于人工通用智能领域。

大型语言模型其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24