高效部署
GLM 4 32B 0414 4bit DWQ
MIT
这是THUDM/GLM-4-32B-0414模型的MLX格式版本,经过4位DWQ量化处理,适用于苹果芯片设备的高效推理。
大型语言模型
支持多种语言
G
mlx-community
156
4
Qwen3 30B A3B Gptq 8bit
Apache-2.0
Qwen3 30B A3B是一个采用GPTQ方法进行8位量化处理的大语言模型,适用于高效推理场景。
大型语言模型
Transformers
Q
btbtyler09
301
2
Orpheus 3b 0.1 Ft Q4 K M GGUF
Apache-2.0
Orpheus-3B-0.1-FT 的 GGUF 量化版本,适用于高效推理
大型语言模型
英语
O
freddyaboulton
30
1
Llama 2 7b Chat Hf GGUF
Llama 2是由Meta开发的7B参数规模的大语言模型,提供多种量化版本以适应不同硬件需求。
大型语言模型
英语
L
Mungert
1,348
3
Deepseek R1 Medical COT GGUF
Apache-2.0
DeepSeek-R1-Medical-COT 是一个专注于医学领域的思维链推理模型,提供多种量化版本以适应不同硬件需求。
大型语言模型
英语
D
tensorblock
180
1
Qwq 32B Bnb 4bit
Apache-2.0
QwQ-32B的4位量化版本,使用Bitsandbytes技术进行优化,适用于资源受限环境下的高效推理
大型语言模型
Transformers
Q
onekq-ai
167
2
Llama 3 8B Instruct GPTQ 4 Bit
其他
这是一个基于Meta Llama 3构建的4位量化GPTQ模型,由Astronomer量化,可在低VRAM设备上高效运行。
大型语言模型
Transformers
L
astronomer
2,059
25
Moritzlaurer Roberta Base Zeroshot V2.0 C Onnx
Apache-2.0
这是MoritzLaurer/roberta-base-zeroshot-v2.0-c模型的ONNX格式转换版本,适用于零样本分类任务。
文本分类
Transformers
M
protectai
14.94k
0