高效推理

# 高效推理

Gliclass Edge V3.0

GLiClass是一款高效的零样本分类器，性能与交叉编码器相当但计算效率更高，适用于多任务场景。

Safetensors 其他

Siglip So400m Patch14 378 From Llava Onevision Qwen2 7b Si Hf

这是一个自动生成的Hugging Face Transformers模型卡片，具体模型信息待补充。

大型语言模型

LGAI EXAONE EXAONE 4.0 1.2B GGUF

EXAONE-4.0-1.2B是LGAI-EXAONE发布的1.2B参数语言模型，提供多种量化版本以适应不同硬件需求。

大型语言模型

Tom Qwen 7B Instruct

基于Qwen/Qwen2.5-7B-Instruct微调的70亿参数模型，专注于逐步指令执行和对话任务。

大型语言模型英语

Gliclass X Base

GLiClass 是一个高效的零样本分类器，性能与交叉编码器相当但计算效率更高，支持多语言文本分类任务。

GLM 4.1V 9B MLX 4bit

这是一个基于THUDM/GLM-4.1V-9B-Thinking转换而来的MLX格式模型，支持视觉语言任务。

文本生成图像支持多种语言

Kyutai Helium 1 2b GGUF

基于 kyutai/helium-1-2b 的 GGUF 格式模型文件，由 TensorBlock 量化，支持多种语言。

大型语言模型

Transformers 支持多种语言

Moonshotai.kimi K2 Instruct GGUF

Kimi - K2 - Instruct 是一个基于 moonshotai/Kimi - K2 - Instruct 模型的量化版本，旨在让知识更广泛地惠及大众。

大型语言模型

Gliclass Modern Base V3.0

GLiClass 是一款高效的零样本分类器，受 GLiNER 启发，能在单次前向传播中完成分类任务，兼具交叉编码器性能和更高计算效率。

Safetensors 其他

LFM2 是由 Liquid AI 开发的新一代混合模型，专为边缘 AI 和设备端部署设计，在质量、速度和内存效率方面树立了新标准。

大型语言模型

Transformers 支持多种语言

Huihui Gemma 3n E4B It Abliterated GGUF

这是一个基于Gemma模型的静态量化版本，适用于自动语音识别、自动语音翻译等多种任务。

大型语言模型

Transformers 英语

LFM2 是由 Liquid AI 开发的新一代混合模型，专为边缘 AI 和设备端部署设计，在质量、速度和内存效率方面树立了新标准。

大型语言模型

Transformers 支持多种语言

LFM2-700M 是由 Liquid AI 开发的新一代混合模型，专为边缘 AI 和设备端部署设计，在质量、速度和内存效率方面树立了新标准。

大型语言模型

Transformers 支持多种语言

LFM2-350M 是由 Liquid AI 开发的混合模型，专为边缘 AI 和设备端部署设计，具有高效训练和推理能力。

大型语言模型

Transformers 支持多种语言

A.X 3.1 Light 是一款专为韩语理解和企业部署优化的轻量级大语言模型（LLM），由SKT完全自主研发。

大型语言模型

Transformers 支持多种语言

Devstral Small 2507 MLX 6bit

Devstral-Small-2507是由mistralai开发的一个小型文本生成模型，支持多种语言，并针对苹果芯片进行了优化。

大型语言模型

Safetensors 支持多种语言

lmstudio-community

Qwen3-0.6B是基于Qwen3系列的大语言模型，支持文本生成，具有独特的思维模式切换、强大的推理能力和多语言支持等特性。

大型语言模型

Diffucoder 7B Cpgrpo 8bit

DiffuCoder-7B-cpGRPO-8bit是一个转换为MLX格式的代码生成模型，基于apple/DiffuCoder-7B-cpGRPO转换而来，专为开发者提供高效的代码生成工具。

大型语言模型其他

ERNIE 4.5 21B A3B PT 8bit

ERNIE-4.5-21B-A3B-PT-8bit 是百度 ERNIE-4.5-21B-A3B-PT 模型的 8 位量化版本，转换为 MLX 格式，适用于苹果芯片设备。

大型语言模型支持多种语言

Qwen Qwen2.5 Coder 1.5B GGUF

Qwen2.5-Coder-1.5B的GGUF量化版本，针对代码生成任务优化，提供多种量化选项以平衡性能与资源消耗。

大型语言模型

featherless-ai-quants

Deepseek R1 0528 5bit

DeepSeek-R1-0528 的 5 位量化版本，适用于 MLX 框架。

大型语言模型

Baidu ERNIE 4.5 21B A3B PT GGUF

百度ERNIE-4.5-21B-A3B-PT模型的量化版本，通过llama.cpp进行量化处理，提升在不同硬件环境下的运行效率和性能。

大型语言模型

LightGlue是一个用于关键点匹配的高效模型，能够自适应调整计算量，适用于图像匹配和位姿估计等任务。

这是chandar-lab/NeoBERT模型的静态量化版本，旨在减少模型存储空间和计算资源需求。

大型语言模型

Transformers 英语

Josiefied Qwen3 30B A3B Abliterated V2 4bit

这是一个基于Qwen3-30B模型转换而来的4位量化版本，适用于MLX框架的文本生成任务。

大型语言模型

Phi 4 Mini Instruct Q4 K M GGUF

Phi-4-mini-instruct 的 GGUF 格式转换版本，支持多语言文本生成任务。

大型语言模型

Transformers 支持多种语言

Huihui Ai.magistral Small 2506 Abliterated GGUF

慧慧AI量化模型是Magistral-Small-2506-abliterated的量化版本，致力于让知识为每个人所用。

大型语言模型

Apriel Nemotron 15b Thinker GGUF

Apriel-Nemotron-15b-Thinker是一款强大的推理模型，在同规模模型中表现出色，具有高效的内存使用和优秀的推理能力，适用于多种企业和学术场景。

大型语言模型

Qwen3 Reranker 0.6B W4A16 G128

Qwen3-Reranker-0.6B的GPTQ量化版本，显存使用优化且精度损失小

Wan2.1 14B T2V FusionX GGUF

这是一个文本转视频的量化模型，支持将文本描述转换为视频内容，并经过GGUF量化处理以提升推理效率。

文本生成视频英语

SLANet_plus是一款用于表格结构识别的模型，能够将不可编辑的表格图像转换为可编辑的表格格式（如HTML），在表格识别系统中发挥着重要作用，可有效提升表格识别的准确性和效率。

文字识别支持多种语言

Qwen.qwen3 Reranker 4B GGUF

Qwen3-Reranker-4B的量化版本，旨在降低资源消耗同时保持性能

大型语言模型

Qwen.qwen3 Reranker 0.6B GGUF

Qwen3-Reranker-0.6B的量化版本，致力于让知识为每个人所用。

大型语言模型

MiniCPM4-MCP是一款开源的端侧大语言模型智能体模型，基于80亿参数的MiniCPM-4构建，能够通过MCP与各种工具和数据资源交互，解决广泛的现实世界任务。

大型语言模型

Transformers 支持多种语言

Gemma 3 27b It Quantized.w4a16

这是google/gemma-3-27b-it的量化版本，支持视觉-文本输入和文本输出，通过权重量化和激活量化优化，可使用vLLM进行高效推理。

图像生成文本

Fpham Sydney Overthinker 13b HF GGUF

该项目提供了优化后的GGUF量化文件，可显著提升模型性能。这些量化文件由Featherless AI提供支持，用户只需支付少量费用，即可运行任意所需模型。

大型语言模型

featherless-ai-quants

Deepseek R1 0528 GPTQ Int4 Int8Mix Compact

DeepSeek-R1-0528模型的GPTQ量化版本，采用Int4 + 选择性Int8的量化方案，在保证生成质量的同时减小文件大小。

大型语言模型

Qwen2 Audio 7B Instruct I1 GGUF

Qwen2-Audio-7B-Instruct的加权/矩阵量化模型，支持英文音频文本转文本任务

文本生成音频

Transformers 英语

Deepseek R1 0528 Qwen3 8B AWQ 4bit

DeepSeek-R1-0528-Qwen3-8B的AWQ量化版本，适用于特定场景下的高效推理。

大型语言模型

Qvikhr 3 1.7B Instruction Noreasoning

QVikhr-3-1.7B-Instruction-noreasoning 是一个基于 Qwen/Qwen3-1.7B 的指令模型，在俄语数据集 GrandMaster2 上进行训练，专为高效处理俄语和英语文本而设计。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24