Qwen3 4B Llamafile
Apache-2.0
Qwen3-4B是Qwen系列最新一代的大语言模型,具有4B参数规模,支持128k上下文窗口和100多种语言,在推理、指令遵循和代理能力方面表现优异。
大型语言模型
Q
Mozilla
995
2
Qwen3 235B A22B GGUF
Apache-2.0
Qwen3是通义千问系列大语言模型的最新版本,提供稠密模型与混合专家(MoE)模型的完整套件。
大型语言模型
Q
Qwen
1,576
2
Qwen3 4B AWQ
Apache-2.0
Qwen3-4B是通义千问系列最新一代40亿参数大语言模型,支持思维与非思维模式切换,具备强大的推理、指令遵循和智能体能力。
大型语言模型
Transformers

Q
Qwen
2,755
4
Phi 4 Reasoning Plus
MIT
Phi-4推理增强版是微软研究院开发的140亿参数开源推理模型,通过监督微调和强化学习优化,专注于数学、科学和编程领域的高级推理能力。
大型语言模型
Transformers

支持多种语言
P
unsloth
189
2
Phi 4 Reasoning Plus GGUF
MIT
Phi-4-reasoning-plus 是微软开发的增强推理能力的大语言模型,专为复杂数学问题和多步骤推理任务优化。
大型语言模型
支持多种语言
P
lmstudio-community
5,205
4
Qwen3 1.7B
Apache-2.0
Qwen3是通义千问系列最新一代大语言模型,提供完整的密集模型和专家混合(MoE)模型组合。
大型语言模型
Transformers

Q
Qwen
395.72k
113
Qwen2.5 Math 7B 16k Think
MIT
基于Qwen2.5-Math-7B改进的模型,扩展了上下文窗口并优化了推理能力
大型语言模型
Transformers

Q
Elliott
3,496
1
Nova 0.5 R1 7B
Apache-2.0
基于OpenThoughts-114k-math数学数据集及其他增强思维能力训练集打造的高性能推理模型
大型语言模型
Transformers

英语
N
oscar128372
18
2
Codev R1 Distill Qwen 7B
基于DeepSeek-R1蒸馏的Verilog RTL代码生成模型,在Verilog基准测试中表现优异
大型语言模型
Transformers

C
zhuyaoyu
154
2
Reasonflux F1
其他
ReasonFlux-F1-32B是基于思维模板扩展的分层大语言模型,通过模板增强推理轨迹微调,在推理任务中表现优异。
大型语言模型
Transformers

R
Gen-Verse
123
8
Open RS1
MIT
基于强化学习增强的小型大语言模型,专注于提升1.5B参数模型的推理能力
大型语言模型
Transformers

O
knoveleng
6,229
4
Qwq Bakeneko 32b
Apache-2.0
基于Qwen2.5-32B和QwQ-32B合并优化的日语对话模型,通过Chat Vector和ORPO技术增强指令跟随能力
大型语言模型
Transformers

日语
Q
rinna
1,597
17
Thinkedit Deepseek Llama3 8b
MIT
ThinkEdit是一种轻量级权重编辑方法,通过识别并编辑少量注意力头来缓解推理模型生成过于简短思维链的问题,提升推理准确性。
大型语言模型
Transformers

T
cesun
55
2
Sombrero QwQ 32B Elite11
Apache-2.0
基于Qwen的QwQ 32B架构优化的大语言模型,专注于高效内存利用、编程辅助和复杂问题解决。
大型语言模型
Transformers

英语
S
prithivMLmods
1,201
8
Li 14b V0.4 Slerp0.1
这是一个使用SLERP方法合并的14B参数规模的大语言模型,由li-14b-v0.4和miscii-14b-0218两个基础模型合并而成。
大型语言模型
Transformers

L
wanlige
70
7
STILL 3 1.5B Preview
STILL-3-1.5B-preview是一款采用强化学习技术增强推理能力的慢思考模型,在AIME基准测试中达到39.33%准确率
大型语言模型
Transformers

S
RUC-AIBOX
2,186
10
Phi 4 Model Stock V2
Phi-4-Model-Stock-v2是基于多个Phi-4变体模型合并而成的大语言模型,采用model_stock合并方法,在多个基准测试中表现良好。
大型语言模型
Transformers

P
bunnycore
56
2
Sky T1 32B Preview GGUF
Sky-T1-32B-Preview是一个32B参数的大语言模型,经过llama.cpp的imatrix量化处理,适用于文本生成任务。
大型语言模型
英语
S
bartowski
1,069
81
Dolphin3.0 Llama3.2 3B GGUF
基于Llama3.2架构的3B参数大语言模型,支持英文文本生成任务,采用llama.cpp进行imatrix量化
大型语言模型
英语
D
bartowski
5,665
15
Luxllama
Apache-2.0
LuxLlama是基于Meta-Llama-3.1-8B-Instruct模型微调的版本,专门优化了卢森堡语理解和生成能力以及通用和数学推理能力。
大型语言模型
Transformers

支持多种语言
L
aiplanet
33
2
Skywork O1 Open PRM Qwen 2.5 1.5B
其他
Skywork o1 Open-PRM-Qwen-2.5-1.5B是基于Qwen2.5-Math-1.5B-Instruct训练的增量过程奖励模型,专为增强小规模复杂问题求解能力而设计。
大型语言模型
S
Skywork
4,368
30
Skywork O1 Open PRM Qwen 2.5 7B
其他
Skywork o1开放模型系列中的7B参数规模模型,基于Qwen2.5-Math-7B-Instruct训练,具备渐进式过程奖励增强的推理能力
大型语言模型
S
Skywork
3,608
50
Powerlm 3b
Apache-2.0
PowerLM-3B是一个30亿参数的小型语言模型,采用Power学习率调度器训练,在自然语言多选、代码生成和数学推理等多个基准测试中表现优异。
大型语言模型
Transformers

P
ibm-research
11.07k
20
Qwen2 7B Instruct
Apache-2.0
基于Qwen2-7B-Instruct进一步后训练的模型,擅长处理复杂的多轮工具/函数调用任务。
大型语言模型
Transformers

支持多种语言
Q
rubra-ai
62
5
Granite 8b Code Instruct 4k
Apache-2.0
Granite-8B-Code-Instruct-4K是一个80亿参数的代码指令模型,基于Granite-8B-Code-Base-4K在多种允许许可的指令数据上进行微调,增强了其遵循指令的能力,包括逻辑推理和问题解决技能。
大型语言模型
Transformers

其他
G
ibm-granite
1,481
110
Granite 3b Code Instruct 2k
Apache-2.0
Granite-3B-Code-Instruct-2K是基于Granite-3B-Code-Base-2K微调的30亿参数模型,增强了指令遵循能力,特别擅长代码生成和逻辑推理任务。
大型语言模型
Transformers

其他
G
ibm-granite
1,883
36
Chicka Mixtral 3x7b
MIT
基于3个Mistral架构模型的专家混合大语言模型,擅长对话、代码和数学任务
大型语言模型
Transformers

C
Chickaboo
77
3
Quietstar 8 Ahead
基于Mistral-7b模型,采用Quiet-STaR方法进行持续预训练,在生成每个输出词元前会先生成8个思维词元,提升推理能力。
大型语言模型
Transformers

Q
ezelikman
239
90
Mathgenie InterLM 20B
Apache-2.0
MathGenie是一种通过问题回译生成合成数据以增强大语言模型数学推理能力的模型。
大型语言模型
Transformers

支持多种语言
M
MathGenie
32
8
Smaug 72B V0.1
其他
首个平均分突破80%的开源大语言模型,基于MoMo-72B-lora-1.8.7-DPO微调,采用创新的DPO-Positive技术优化偏好学习
大型语言模型
Transformers

S
abacusai
119
468
Codellama 7b Hf ReFT GSM8k
通过强化微调增强大语言模型的推理泛化能力,基于Codellama微调,适用于代码生成与理解任务。
大型语言模型
Transformers

C
lqtrung1998
38
1
Smaug 34B V0.1
Apache-2.0
基于jondurbin/bagel-34b-v0.2微调的大语言模型,采用新型DPO-Positive(DPOP)技术优化偏好学习
大型语言模型
Transformers

S
abacusai
2,694
62
SOLAR Math 2x10.7b V0.2
由两个Solar-10.7B指令微调模型合并而成的大语言模型,性能与GPT-3.5和Gemini Pro相当,超越Mixtral-8x7b
大型语言模型
Transformers

S
macadeliccc
92
4
Openchat 3.5 0106
Apache-2.0
OpenChat是一个基于Mistral-7B的开源语言模型,通过混合质量数据训练,提供卓越的文本生成能力。
大型语言模型
Transformers

O
openchat
85.06k
357
Openchat 3.5 1210
Apache-2.0
OpenChat 3.5 1210是基于Mistral-7B架构的开源语言模型,在混合质量数据集上训练,支持编程、通用对话和数学推理任务,整体表现优于ChatGPT(三月版)和Grok-1。
大型语言模型
Transformers

O
openchat
53.23k
272
Discolm Mixtral 8x7b V2
Apache-2.0
基于Mistral AI的Mixtral 8x7b开发的实验性8x7b混合专家模型,在Synthia、MetaMathQA和Capybara数据集上进行了微调
大型语言模型
Transformers

英语
D
DiscoResearch
205
124
Metamath Llemma 7B
Apache-2.0
MetaMath-Llemma-7B是基于Llemma-7B基础模型在MetaMathQA数据集上完整微调的数学专用大语言模型,显著提升了数学问题解决能力。
大型语言模型
Transformers

M
meta-math
3,192
16
Metamath Mistral 7B
Apache-2.0
MetaMath-Mistral-7B是基于Mistral-7B模型在MetaMathQA数据集上微调的数学推理模型,显著提升了数学问题解决能力。
大型语言模型
Transformers

M
meta-math
2,152
95
Metamath 7B V1.0
MetaMath-Llemma-7B是基于MetaMathQA数据集全参数微调的数学推理模型,在GSM8K和MATH数据集上表现优异。
大型语言模型
Transformers

M
meta-math
278
27
Wizardlm 13B V1.2
WizardLM-13B V1.2是基于Llama-2 13b训练的大型语言模型,专注于复杂指令遵循能力。
大型语言模型
Transformers

W
WizardLMTeam
989
226
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文