高效量化推理

# 高效量化推理

Nvidia OpenReasoning Nemotron 7B GGUF

NVIDIA OpenReasoning-Nemotron-7B模型的量化版本，使用llama.cpp工具进行量化处理，提升在不同硬件上的运行效率和性能。

大型语言模型

Thedrummer Cydonia 24B V4 GGUF

基于llama.cpp对TheDrummer的Cydonia-24B-v4模型进行量化的版本，可在资源有限的设备上高效运行。

大型语言模型

Menlo Lucy 128k GGUF

Lucy-128k模型的量化版本，通过llama.cpp工具进行量化处理，适用于不同硬件条件下的高效运行。

大型语言模型

ERNIE 4.5 21B A3B PT GGUF

ERNIE-4.5-21B是一款强大的文本生成模型，基于先进的技术创新，在文本理解、生成等多方面表现出色。

大型语言模型

Transformers 支持多种语言

Microsoft NextCoder 32B GGUF

微软NextCoder - 32B模型的量化版本，使用llama.cpp工具对原模型进行量化处理，以在不同硬件条件下更高效地运行模型。

大型语言模型支持多种语言

Huihui Gemma 3n E4B It Abliterated Q4 K M GGUF

这是一个基于huihui-ai/Huihui-gemma-3n-E4B-it-abliterated模型转换的GGUF格式模型，适用于文本生成任务。

大型语言模型

Gryphe Codex 24B Small 3.2 GGUF

这是Gryphe的Codex-24B-Small-3.2模型的量化版本，通过量化技术优化了在不同硬件条件下的运行效率。

大型语言模型英语

Blitzar Coder 4B F.1 GGUF

Blitzar-Coder-4B-F.1是一个高效的多语言编码模型，基于Qwen3-4B微调，支持10多种编程语言，具备出色的代码生成、调试和推理能力。

大型语言模型

Nunchaku Flux.1 Fill Dev

FLUX.1-Fill-dev的Nunchaku量化版本，能够根据文本描述填充现有图像中的区域，经过量化处理实现高效推理。

图像生成英语

Qwen3是通义千问系列最新一代大语言模型，提供完整的稠密模型与混合专家（MoE）模型组合。基于大规模训练，Qwen3在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展。

大型语言模型英语

Qwen3 8B NEO Imatrix Max GGUF

基于Qwen3-8B模型的NEO Imatrix量化版本，支持32K长上下文和增强推理能力

大型语言模型

Llava 1.5 13b Hf I1 GGUF

该项目提供了llava-1.5-13b-hf模型的加权/矩阵量化版本，包含多种量化类型选择，适用于不同场景下的使用需求。

文本生成图像

Transformers 英语

Mistral Small 3.1 24B Instruct 2503 Q4 K M GGUF

这是一个基于mistralai/Mistral-Small-3.1-24B-Instruct-2503转换的GGUF格式模型，支持多语言文本生成任务。

大型语言模型支持多种语言

LGAI EXAONE EXAONE Deep 2.4B GGUF

这是LGAI-EXAONE发布的EXAONE-Deep-2.4B模型的量化版本，使用llama.cpp进行量化，支持英语和韩语文本生成任务。

大型语言模型支持多种语言

Zed Industries Zeta GGUF

这是对zed-industries的zeta模型进行的Llamacpp imatrix量化版本，解决了在不同硬件条件下高效运行模型的问题，提供了多种量化类型供用户选择。

大型语言模型

Virtuoso Lite GGUF

Virtuoso-Lite的量化版本，使用llama.cpp进行量化处理，提升在不同硬件上的运行效率。

大型语言模型

Qwen2 VL 7B Instruct GGUF

基于Qwen2-VL-7B-Instruct的多模态模型量化版本，支持图像文本到文本任务，适用于多种量化级别。

图像生成文本英语

Eurollm 9B Instruct GGUF

EuroLLM-9B-Instruct是一个多语言指令跟随大语言模型，支持40+种语言，特别优化了欧洲语言处理能力。

大型语言模型支持多种语言

T5 3b Q4 K M GGUF

该模型是通过ggml.ai的GGUF-my-repo空间，使用llama.cpp从google-t5/t5-3b转换至GGUF格式的量化版本。

机器翻译支持多种语言

Nxcode CQ 7B Orpo IMat GGUF

这是NTQAI/Nxcode-CQ-7B-orpo模型的Llama.cpp imatrix量化版本，提供了多种量化类型的文件，适用于不同场景的需求。

大型语言模型

Wizardlm 2 7B Abliterated GGUF

这是使用llama.cpp对WizardLM-2-7B进行量化后的版本，基于正交化bfloat16 safetensor权重处理，支持多轮对话。

大型语言模型

Deepseek V2 Lite Chat IMat GGUF

DeepSeek-V2-Lite-Chat 的 GGUF 量化版本，支持多种量化类型，适用于本地部署和推理。

大型语言模型

Mixtral 8x7B Instruct V0.1 Offloading Demo

Mixtral 是一个支持多语言的文本生成模型，采用混合专家（MoE）架构，支持英语、法语、意大利语、德语和西班牙语。

大型语言模型

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24