低内存推理

# 低内存推理

Nvidia OpenReasoning Nemotron 14B GGUF

这是NVIDIA的OpenReasoning-Nemotron-14B模型的量化版本，旨在提升模型在不同硬件上的运行效率和性能。

大型语言模型

LFM2是由Liquid AI开发的新一代混合模型，专为边缘AI和设备端部署设计，在质量、速度和内存效率方面树立了新标准。

大型语言模型支持多种语言

Internvl3 38B FP8 Dynamic

这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本，针对使用 vLLM 进行高性能推理进行了优化，在视觉语言任务上实现了约 2 倍的加速，同时精度损失极小。

文本生成图像

Safetensors 支持多种语言

ConfidentialMind

Smollm 135M Instruct

一个轻量级指令微调语言模型，专为移动端部署优化

大型语言模型

litert-community

Falcon E 3B Instruct

Falcon-E-3B-Instruct 是一个基于1.58比特架构的高效语言模型，专为边缘设备优化，具有出色的推理能力和低内存占用。

大型语言模型

Falcon E 1B Instruct

Falcon-E-1B-Instruct 是一个基于1.58比特架构的高效语言模型，专为边缘设备优化，具有低内存占用和高性能的特点。

大型语言模型

All MiniLM L6 V2 GGUF

all-MiniLM-L6-v2是一个小型高效的句子嵌入模型，基于MiniLM架构，适用于句子相似度计算和特征提取任务。

文本嵌入英语

Meta Llama 3 8B Instruct GGUF

基于Llama-3-8B-Instruct的IQ-DynamicGate超低位量化(1-2比特)模型，采用精度自适应量化技术，在保持极致内存效率的同时提升推理精度。

大型语言模型英语

Mosaicml Mpt 7b Chat Bnb 4bit Smashed

PrunaAI提供的压缩版MPT-7B-Chat模型，通过llm-int8技术优化，显著降低内存占用和能耗。

大型语言模型

Transformers 其他

Nllb 200 Distilled 1.3B Ct2 Int8

NLLB-200 Distilled 1.3B是Meta开发的神经机器翻译模型，支持200种语言之间的翻译，使用CTranslate2进行高效推理。

Transformers 支持多种语言

Btlm 3b 8k Base

BTLM-3B-8k-base是一个具有8k上下文长度的30亿参数语言模型，基于6270亿token的SlimPajama数据集训练而成，性能可媲美开源70亿参数模型。

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24