数学推理增强

# 数学推理增强

基于Qwen3-1.7B微调的版本，通过1-shot强化学习与可验证奖励（RLVR）方法增强了数学推理能力，在数学基准测试和编码任务中表现出色。

大型语言模型

Deepseek R1 0528 Bf16

DeepSeek-R1-0528是DeepSeek R1模型的小版本升级，通过增加计算资源和算法优化显著提升了推理能力，在数学、编程和通用逻辑等多个基准评估中表现出色。

大型语言模型

cognitivecomputations

Deepseek R1 0528 Qwen3 8B GPTQ Int4 Int8Mix

基于DeepSeek-R1-0528-Qwen3-8B开发的量化版本模型，在推理能力、减少幻觉率等方面有显著提升，适用于多种自然语言处理任务。

大型语言模型

Autogressive 32B

Autoregressive-32B是基于自回归建模构建的Multiverse-32B基线模型，为文本生成任务提供了强大的支持。

大型语言模型

Qwen3 4B Llamafile

Qwen3-4B是Qwen系列最新一代的大语言模型，具有4B参数规模，支持128k上下文窗口和100多种语言，在推理、指令遵循和代理能力方面表现优异。

大型语言模型

Qwen3 235B A22B GGUF

Qwen3是通义千问系列大语言模型的最新版本，提供稠密模型与混合专家（MoE）模型的完整套件。基于海量训练数据，Qwen3在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展。

大型语言模型

Qwen3-4B是通义千问系列最新一代40亿参数大语言模型，支持思维与非思维模式切换，具备强大的推理、指令遵循和智能体能力。

大型语言模型

Phi 4 Reasoning Plus Unsloth Bnb 4bit

Phi-4-reasoning-plus是微软基于Phi-4微调的最先进开放权重推理模型，专注于数学、科学和编码领域的高级推理能力。

大型语言模型

Transformers 支持多种语言

Phi 4 Reasoning Plus

Phi-4推理增强版是微软研究院开发的140亿参数开源推理模型，通过监督微调和强化学习优化，专注于数学、科学和编程领域的高级推理能力。

大型语言模型

Transformers 支持多种语言

Phi 4 Reasoning Plus GGUF

Phi-4-reasoning-plus 是微软开发的增强推理能力的大语言模型，专为复杂数学问题和多步骤推理任务优化。

大型语言模型支持多种语言

lmstudio-community

Qwen3是通义千问系列最新一代大语言模型，提供完整的密集模型和专家混合(MoE)模型组合。基于大规模训练，Qwen3在推理、指令遵循、智能体能力和多语言支持方面取得突破性进展。

大型语言模型

Octothinker 3B Hybrid Zero

OctoThinker-3B-Hybrid-Zero是基于Llama-3家族构建的强化学习基础语言模型，采用R1-Zero风格的强化学习技术进行训练。

大型语言模型

Safetensors 英语

Qwen2.5 Math 7B 16k Think

基于Qwen2.5-Math-7B改进的模型，扩展了上下文窗口并优化了推理能力

大型语言模型

基于OpenThoughts-114k-math数学数据集及其他增强思维能力训练集打造的高性能推理模型

大型语言模型

Transformers 英语

Codev R1 Distill Qwen 7B

基于DeepSeek-R1蒸馏的Verilog RTL代码生成模型，在Verilog基准测试中表现优异

大型语言模型

ReasonFlux-F1-32B是基于思维模板扩展的分层大语言模型，通过模板增强推理轨迹微调，在推理任务中表现优异。

大型语言模型

基于强化学习增强的小型大语言模型，专注于提升1.5B参数模型的推理能力

大型语言模型

Qwq Bakeneko 32b

基于Qwen2.5-32B和QwQ-32B合并优化的日语对话模型，通过Chat Vector和ORPO技术增强指令跟随能力

大型语言模型

Transformers 日语

Thinkedit Deepseek Llama3 8b

ThinkEdit是一种轻量级权重编辑方法，通过识别并编辑少量注意力头来缓解推理模型生成过于简短思维链的问题，提升推理准确性。

大型语言模型

Sombrero QwQ 32B Elite11

基于Qwen的QwQ 32B架构优化的大语言模型，专注于高效内存利用、编程辅助和复杂问题解决。

大型语言模型

Transformers 英语

Fluentlylm Prinum GGUF

FluentlyLM-Prinum 是一个多语言支持的大语言模型，适用于文本生成任务，支持多种语言和代码处理。

大型语言模型

Transformers 支持多种语言

Li 14b V0.4 Slerp0.1

这是一个使用SLERP方法合并的14B参数规模的大语言模型，由li-14b-v0.4和miscii-14b-0218两个基础模型合并而成。

大型语言模型

STILL 3 1.5B Preview

STILL-3-1.5B-preview是一款采用强化学习技术增强推理能力的慢思考模型，在AIME基准测试中达到39.33%准确率

大型语言模型

Phi 4 Model Stock V2

Phi-4-Model-Stock-v2是基于多个Phi-4变体模型合并而成的大语言模型，采用model_stock合并方法，在多个基准测试中表现良好。

大型语言模型

Aceinstruct 72B

AceInstruct 是一系列先进的 SFT 模型，基于 Qwen 改进，适用于编码、数学和通用任务。

大型语言模型

Safetensors 支持多种语言

Sky T1 32B Preview GGUF

Sky-T1-32B-Preview是一个32B参数的大语言模型，经过llama.cpp的imatrix量化处理，适用于文本生成任务。

大型语言模型英语

Dolphin3.0 Llama3.2 3B GGUF

基于Llama3.2架构的3B参数大语言模型，支持英文文本生成任务，采用llama.cpp进行imatrix量化

大型语言模型英语

LuxLlama是基于Meta-Llama-3.1-8B-Instruct模型微调的版本，专门优化了卢森堡语理解和生成能力以及通用和数学推理能力。

大型语言模型

Transformers 支持多种语言

Skywork O1 Open PRM Qwen 2.5 1.5B

Skywork o1 Open-PRM-Qwen-2.5-1.5B是基于Qwen2.5-Math-1.5B-Instruct训练的增量过程奖励模型，专为增强小规模复杂问题求解能力而设计。

大型语言模型

Skywork O1 Open PRM Qwen 2.5 7B

Skywork o1开放模型系列中的7B参数规模模型，基于Qwen2.5-Math-7B-Instruct训练，具备渐进式过程奖励增强的推理能力

大型语言模型

Llama 3.2 Rabbit Ko 3B Instruct

胡萝卜Llama-3.2 Rabbit Ko是一款经过指令微调的大语言模型，支持韩语和英语，在文本生成任务中表现出色。

大型语言模型

Safetensors 支持多种语言

L3.1 8B Sunfall Stheno V0.6.1

Sunfall模型是基于Llama-3.1-8B-Stheno-v3.4开发的自然语言处理模型，适用于特定功能和应用场景。

大型语言模型

PowerLM-3B是一个30亿参数的小型语言模型，采用Power学习率调度器训练，在自然语言多选、代码生成和数学推理等多个基准测试中表现优异。

大型语言模型

Deepseek Coder V2 Lite Base AWQ

DeepSeek-Coder-V2 是一个开源的混合专家（MoE）代码语言模型，在特定代码任务中可实现与 GPT4-Turbo 相媲美的性能。

大型语言模型

Qwen2 7B Instruct

基于Qwen2-7B-Instruct进一步后训练的模型，擅长处理复杂的多轮工具/函数调用任务。

大型语言模型

Transformers 支持多种语言

Granite 8b Code Instruct 4k

Granite-8B-Code-Instruct-4K是一个80亿参数的代码指令模型，基于Granite-8B-Code-Base-4K在多种允许许可的指令数据上进行微调，增强了其遵循指令的能力，包括逻辑推理和问题解决技能。

大型语言模型

Transformers 其他

Granite 3b Code Instruct 2k

Granite-3B-Code-Instruct-2K是基于Granite-3B-Code-Base-2K微调的30亿参数模型，增强了指令遵循能力，特别擅长代码生成和逻辑推理任务。

大型语言模型

Transformers 其他

Chicka Mixtral 3x7b

基于3个Mistral架构模型的专家混合大语言模型，擅长对话、代码和数学任务

大型语言模型

Quietstar 8 Ahead

基于Mistral-7b模型，采用Quiet-STaR方法进行持续预训练，在生成每个输出词元前会先生成8个思维词元，提升推理能力。

大型语言模型

Mathgenie InterLM 20B

MathGenie是一种通过问题回译生成合成数据以增强大语言模型数学推理能力的模型。

大型语言模型

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24