4bit量化推理

# 4bit量化推理

Kimi K2 Instruct 4bit

Kimi-K2-Instruct-4bit 是一个基于 moonshotai/Kimi-K2-Instruct 转换而来的 4bit 量化模型，适用于 MLX 框架。

大型语言模型

Qwen3 30B A3B 4bit DWQ 10072025

Qwen3-30B-A3B的4位量化版本，适用于MLX框架的高效推理

大型语言模型

GLM 4 32B 0414 4bit DWQ

这是THUDM/GLM-4-32B-0414模型的MLX格式版本，经过4位DWQ量化处理，适用于苹果芯片设备的高效推理。

大型语言模型支持多种语言

Gemma 3 12b It 4bit DWQ

Gemma 3 12B模型的4位量化版本，适用于MLX框架，支持高效文本生成任务。

大型语言模型

SWE Agent LM 32B 4bit

这是一个基于SWE-bench/SWE-agent-LM-32B模型转换而来的4位量化版本，专为软件工程任务优化的语言模型。

大型语言模型

Transformers 英语

Josiefied Qwen3 4B Abliterated V1 4bit

这是一个基于Qwen3-4B模型转换到MLX格式的4位量化版本，适用于文本生成任务。

大型语言模型

Qwen3 0.6B 4bit

这是一个基于Qwen/Qwen3-0.6B模型转换的4位量化版本，适用于MLX框架的高效推理。

大型语言模型

GLM 4 32B 0414 4bit

GLM-4-32B-0414-4bit 是基于 THUDM/GLM-4-32B-0414 转换而来的 MLX 格式模型，支持中英文文本生成任务。

大型语言模型支持多种语言

Philosophy Model

这是一个使用Unsloth和Huggingface TRL库优化的Mistral-7B指令微调模型，训练速度提升2倍

大型语言模型

Transformers 英语

Gemma 3 4b It Qat 4bit

Gemma 3 4B IT QAT 4bit 是一个经过量化感知训练（QAT）的4位量化大语言模型，基于Gemma 3架构，专为MLX框架优化。

图像生成文本

Transformers 其他

Deepseek R1 Chinese Law

基于Unsloth和Huggingface TRL库训练的Llama模型，推理速度提升2倍

大型语言模型

Transformers 英语

Llama 3.2 Vision Instruct Bpmncoder

基于Unsloth优化的Llama 3.2 11B视觉指令微调模型，采用4位量化技术，训练速度提升2倍

文本生成图像

Transformers 英语

Qwen2 Vl Instuct Bpmncoder

基于Qwen2-VL-7B模型的4位量化版本，使用Unsloth和Huggingface TRL库进行训练，推理速度提升2倍

文本生成图像

Transformers 英语

基于Unsloth和Huggingface TRL库优化的Qwen2模型，推理速度提升2倍

大型语言模型

Transformers 英语

Llama 3.2 11B Vision Invoices Mini

基于unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit微调的多模态大语言模型，支持视觉指令理解任务，使用Unsloth优化训练速度提升2倍。

文本生成图像

Transformers 英语

Qwen 2 VL 7B OCR

基于Qwen2-VL-7B模型的微调版本，使用Unsloth和Huggingface的TRL库进行训练，速度提升2倍。

文本生成图像

Transformers 英语

Llama Bodo Translation Model

基于Meta-Llama-3.1-8B的4位量化版本微调的博多语-英语双向翻译模型，使用Unsloth优化训练速度

大型语言模型

Transformers 支持多种语言

Qvikhr 2.5 1.5B Instruct SMPO MLX 4bit

这是一个基于QVikhr-2.5-1.5B-Instruct-SMPO模型的4位量化版本，专为MLX框架优化，支持俄语和英语的指令理解与生成任务。

大型语言模型

Transformers 支持多种语言

Mlx Stable Diffusion 3.5 Large 4bit Quantized

这是基于Stable Diffusion 3.5 Large模型在DiffusionKit MLX框架上量化的版本，适用于图像生成任务。

文本生成图像英语

Awportrait FL NF4

AWPortrait-FL的BNB-NF4量化版本，基于FLUX.1-dev开发的文本到图像生成模型

图像生成英语

Text2cypher Gemma 2 9b It Finetuned 2024v1

该模型是基于google/gemma-2-9b-it微调的Text2Cypher模型，能够将自然语言问题转换为Neo4j图数据库的Cypher查询语句。

知识图谱英语

Midnight Miqu 70B V1.5 4bit

Midnight-Miqu-70B-v1.5 是一个70B参数规模的大语言模型，支持文本生成等任务。

大型语言模型

Google Gemma 2b AWQ 4bit Smashed

基于google/gemma-2b模型通过AWQ技术压缩的4位量化版本，旨在提升推理效率并降低资源消耗。

大型语言模型

C4ai Command R V01 4bit

该模型是从 CohereForAI/c4ai-command-r-v01 转换为 MLX 格式的 4bit 量化版本，支持多语言对话和工具使用。

大型语言模型

Transformers 支持多种语言

Laser Dolphin Mixtral 4x7b Dpo

基于特定模型改进的中等规模MoE实现模型，适用于文本生成任务，在多个基准测试中表现良好。

大型语言模型

Gpt4 X Alpaca 13b Native 4bit 128g

基于GPT4和Alpaca指令微调的13B参数语言模型，支持4bit量化推理

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24