高效部署

# 高效部署

Nvidia.openreasoning Nemotron 1.5B GGUF

这是一个基于nvidia/OpenReasoning-Nemotron-1.5B的量化版本模型，旨在提供高效的文本生成能力。

大型语言模型

Openreasoning Nemotron 14B GGUF

这是英伟达OpenReasoning Nemotron 14B的量化版本，由bartowski基于llama.cpp提供GGUF量化。

大型语言模型

lmstudio-community

Qwen3 30B A3B 4bit DWQ 10072025

Qwen3-30B-A3B的4位量化版本，适用于MLX框架的高效推理

大型语言模型

Gemma 3 4b It Quantized.w4a16

基于google/gemma-3-4b-it的量化版本，采用INT4权重量化和FP16激活量化，优化推理效率

图像生成文本

GLM 4 32B 0414 4bit DWQ

这是THUDM/GLM-4-32B-0414模型的MLX格式版本，经过4位DWQ量化处理，适用于苹果芯片设备的高效推理。

大型语言模型支持多种语言

Spec-T1-RL-7B 是一款专注于数学推理、算法问题解决和代码生成的高精度大语言模型，在技术基准测试中表现卓越。

大型语言模型

Safetensors 英语

SVECTOR-CORPORATION

Qwen3 30B A3B Gptq 8bit

Qwen3 30B A3B是一个采用GPTQ方法进行8位量化处理的大语言模型，适用于高效推理场景。

大型语言模型

Qwen2.5 VL 7B Instruct Gptqmodel Int8

基于Qwen2.5-VL-7B-Instruct模型进行GPTQ-INT8量化的视觉语言模型

图像生成文本

Transformers 支持多种语言

Whisper Large V3 Turbo Quantized.w4a16

基于openai/whisper-large-v3-turbo的INT4权重量化版本，支持高效音频转文本任务

Transformers 英语

Orpheus 3b 0.1 Ft Q4 K M GGUF

Orpheus-3B-0.1-FT 的 GGUF 量化版本，适用于高效推理

大型语言模型英语

Llama 2 7b Chat Hf GGUF

Llama 2是由Meta开发的7B参数规模的大语言模型，提供多种量化版本以适应不同硬件需求。

大型语言模型英语

Deepseek R1 Medical COT GGUF

DeepSeek-R1-Medical-COT 是一个专注于医学领域的思维链推理模型，提供多种量化版本以适应不同硬件需求。

大型语言模型英语

Qwq 32B Bnb 4bit

QwQ-32B的4位量化版本，使用Bitsandbytes技术进行优化，适用于资源受限环境下的高效推理

大型语言模型

Qwen2.5 VL 7B Instruct FP8 Dynamic

Qwen2.5-VL-7B-Instruct的FP8量化版本，通过vLLM支持高效视觉-文本推理

文本生成图像

Transformers 英语

Deepseek R1 Distill Llama 70B FP8 Dynamic

DeepSeek-R1-Distill-Llama-70B的FP8量化版本，通过减少权重和激活的位数来优化推理性能

大型语言模型

Molmo 7B D 0924 NF4

Molmo-7B-D-0924的4Bit量化版本，通过NF4量化策略降低显存占用，适用于显存受限环境。

图像生成文本

Pixtral 12b FP8 Dynamic

pixtral-12b-FP8-dynamic 是 mistral-community/pixtral-12b 的量化版本，通过将权重和激活量化为 FP8 数据类型，减少磁盘大小和 GPU 内存需求约 50%，适用于多种语言的商业和研究用途。

文本生成图像

Safetensors 支持多种语言

QQQ Llama 3 8b G128

这是一个基于Llama-3-8b模型进行INT4量化的版本，采用QQQ量化技术，组大小为128，针对硬件优化。

大型语言模型

Llama 3 8B Instruct GPTQ 4 Bit

这是一个基于Meta Llama 3构建的4位量化GPTQ模型，由Astronomer量化，可在低VRAM设备上高效运行。

大型语言模型

Moritzlaurer Roberta Base Zeroshot V2.0 C Onnx

这是MoritzLaurer/roberta-base-zeroshot-v2.0-c模型的ONNX格式转换版本，适用于零样本分类任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24