# 强化学习优化

ERNIE 4.5 21B A3B PT GGUF
Apache-2.0
ERNIE-4.5-21B-A3B-PT是基于MoE架构的先进文本生成模型,具有210亿参数和高效的多模态处理能力。
大型语言模型 Transformers 支持多种语言
E
Mungert
680
2
Lucy 128k Gguf
Apache-2.0
Lucy是一款基于17亿参数Qwen3-1.7B构建的轻量级自主网络搜索模型,针对移动设备优化,可在CPU上高效运行。
大型语言模型 Transformers 英语
L
Menlo
814
5
Lucy Gguf
Apache-2.0
Lucy是一款专注于自主网络搜索和轻量级浏览的17亿参数模型,优化后可在移动设备上高效运行。
大型语言模型 Transformers 英语
L
Menlo
618
2
GLM 4.1V 9B Thinking AWQ
MIT
GLM-4.1V-9B-Thinking是一款强大的视觉语言模型(VLM),专注于多模态理解和推理,通过AWQ量化版本提供高效推理能力。
文本生成图像 Transformers
G
dengcao
882
1
Polaris 4B Preview F32 GGUF
Apache-2.0
Polaris是一种开源的后训练方法,利用强化学习优化和增强模型,提升推理能力。
大型语言模型 Transformers 英语
P
prithivMLmods
765
1
Longwriter Zero 32B I1 GGUF
Apache-2.0
LongWriter-Zero-32B 量化模型基于 THU-KEG/LongWriter-Zero-32B 基础模型,支持中英双语,适用于强化学习、写作等长上下文场景。
大型语言模型 Transformers 支持多种语言
L
mradermacher
135
1
Longwriter Zero 32B GGUF
Apache-2.0
LongWriter-Zero-32B量化模型是基于原始模型进行静态量化处理的多语言模型,适用于强化学习、写作等长上下文场景。
大型语言模型 Transformers 支持多种语言
L
mradermacher
204
1
Acereason Nemotron 1.1 7B GGUF
其他
英伟达推出的高性能7B参数语言模型,专注于数学和代码推理任务,支持128k上下文长度。
大型语言模型 支持多种语言
A
lmstudio-community
278
1
Kimi Dev 72B
MIT
Kimi-Dev-72B 是一款用于软件工程任务的开源编码大语言模型,在 SWE-bench Verified 上取得了开源模型中的最优成绩。
大型语言模型 Transformers 其他
K
moonshotai
324
162
Contentv 8B
Apache-2.0
ContentV是一个高效的视频生成模型框架,通过极简架构、多阶段训练策略和经济高效的强化学习框架,在有限计算资源下实现高质量视频生成。
视频处理
C
ByteDance
417
25
Llama 3.1 8B Instruct RM RB2
Llama-3.1-8B-Instruct-RM-RB2是Allen人工智能研究所发布的奖励模型之一,基于Llama-3.1-8B-Instruct微调,用于评估和优化生成模型的偏好学习。
大型语言模型 Transformers 英语
L
allenai
1,121
1
Llama 3.1 70B Instruct RM RB2
Llama-3.1-70B-Instruct-RM-RB2是艾伦人工智能研究所发布的7组奖励模型之一,用于开发基准测试并与下游PPO/Best-of-N性能关联分析。
大型语言模型 Transformers 英语
L
allenai
114
1
Mmada 8B MixCoT
MIT
MMaDA是一类新型的多模态扩散基础模型,在文本推理、多模态理解和文本到图像生成等多个领域表现卓越。
文本生成图像 Transformers
M
Gen-Verse
601
3
Reasongen R1
Apache-2.0
ReasonGen-R1是一个融合思维链推理的自回归图像生成模型,通过SFT和RL提升图像生成的逻辑性和质量。
文本生成图像 Transformers
R
Franklin0
142
1
Qwenlong L1 32B
Apache-2.0
QwenLong-L1是基于强化学习训练的长上下文大推理模型,在七个长上下文文档问答基准测试中表现优异。
大型语言模型 Transformers
Q
Tongyi-Zhiwen
683
106
Thinkless 1.5B Warmup
Apache-2.0
无思框架(Thinkless)是一种可学习框架,使大模型能根据任务复杂度和自身能力,自适应选择简短推理或长链推理。
大型语言模型 Transformers
T
Vinnnf
966
1
Qwen2.5 VL 3B UI R1 E
MIT
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
图像生成文本 英语
Q
LZXzju
75
3
Verireason Codellama 7b RTLCoder Verilog GRPO Reasoning Tb
VeriReason是一种结合强化学习与测试平台反馈的Verilog RTL代码生成方法,显著提升了预训练模型在硬件设计领域的性能。
大型语言模型 Transformers
V
Nellyw888
1,483
1
INTELLECT 2 GGUF
Apache-2.0
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
大型语言模型
I
lmstudio-community
467
5
Llama 3.1 Nemotron Nano 8B V1 GGUF
其他
Llama-3.1-Nemotron-Nano-8B-v1是基于Meta Llama-3.1-8B-Instruct的推理模型,经过后训练增强推理能力、人类聊天偏好及任务执行能力。
大型语言模型 Transformers 英语
L
unsloth
22.18k
3
INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf
Apache-2.0
基于Qwen2.5-VL-72B-Instruct改进的多模态视觉语言模型,在多个视觉推理基准测试中表现优异
文本生成图像 英语
I
GeorgyGUF
64
0
INFRL Qwen2.5 VL 72B Preview Bf16.gguf
Apache-2.0
基于Qwen2.5-VL-72B-Instruct优化的视觉语言模型,在多个视觉推理基准测试中表现优异
文本生成图像 英语
I
GeorgyGUF
40
0
Llama 3.1 8B Instruct
Meta Llama 3.1系列多语言大型语言模型,包含8B参数规模,针对多语言对话用例优化,支持8种语言。
大型语言模型 Safetensors 支持多种语言
L
RedHatAI
292
1
Kevin 32B GGUF
Kevin 32B是由Cognition AI开发的大语言模型,支持超长上下文(40960 tokens),专注于CUDA内核生成和强化学习任务。
大型语言模型
K
lmstudio-community
297
4
RM R1 DeepSeek Distilled Qwen 14B
MIT
RM-R1是一个用于推理奖励模型(ReasRM)的训练框架,通过生成评分标准或推理轨迹来评判候选答案,提供可解释的评判。
大型语言模型 Transformers 英语
R
gaotang
95
1
II Medical 7B Preview
基于Qwen/Qwen2.5-7B-Instruct微调的医疗推理模型,在多个医疗QA基准测试上表现优异
大型语言模型 Transformers
I
Intelligent-Internet
112
9
Deephermes Financial Fundamentals Prediction Specialist Atropos
这是一个实验性金融分析模型,通过Atropos强化学习框架优化金融基本面预测能力
大型语言模型 Transformers 英语
D
NousResearch
52
5
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型,基于Qwen2.5-VL-7B-Instruct架构,增加了用于训练奖励模型的价值头结构。
多模态融合 Transformers
S
Skywork
30
8
Octothinker 3B Hybrid Zero
OctoThinker-3B-Hybrid-Zero是基于Llama-3家族构建的强化学习基础语言模型,采用R1-Zero风格的强化学习技术进行训练。
大型语言模型 Safetensors 英语
O
OctoThinker
210
1
Deepcoder 1.5B Preview GGUF
MIT
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习技术扩展长上下文处理能力
大型语言模型 英语
D
Mungert
888
2
Tinyv 1.5B
Apache-2.0
基于Qwen/Qwen2.5-1.5B-Instruct模型进行微调,使用了TinyV奖励系统,能在高效强化学习(RL)后训练中提供更准确的奖励信号,显著提升RL效率和最终模型性能。
大型语言模型 Transformers
T
zhangchenxu
1,124
1
Tinyllava Video R1
Apache-2.0
TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型,通过强化学习显著提升了推理与思维能力,并展现出'顿悟时刻'的涌现特性。
视频生成文本 Transformers
T
Zhang199
123
2
Deepcoder 14B Preview Exl2
DeepCoder-14B-Preview是基于DeepSeek-R1-Distill-Qwen-14B开发的代码生成模型,专注于可验证编程问题的解决。
大型语言模型 英语
D
cgus
46
2
Deepcoder 1.5B Preview Exl2 4.65bpw
MIT
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型,采用分布式强化学习技术扩展长上下文处理能力
大型语言模型 Transformers 英语
D
async0x42
14
3
Unt 8b
Apache-2.0
骆驼模型是一个基于变换器架构的文本生成模型,支持阿塞拜疆语,采用强化学习进行训练。
大型语言模型 Transformers 其他
U
omar07ibrahim
33
2
Quasar 3.0 Final
Quasar-3.0-Max是SILX INC提供的7B参数蒸馏模型,展示了Quasar架构的早期潜力,采用创新的TTM训练流程和强化学习技术。
大型语言模型 Transformers
Q
silx-ai
118
4
Quasar 3.0 Instract V2
Quasar-3.0-7B是即将发布的400B Quasar 3.0模型的蒸馏版本,展示了Quasar架构的早期实力和潜力。
大型语言模型 Transformers
Q
silx-ai
314
8
VARGPT V1.1
Apache-2.0
VARGPT-v1.1是一个视觉自回归统一大模型,通过迭代指令调优与强化学习提升,能够同时实现视觉理解和生成任务。
文本生成图像 Transformers 英语
V
VARGPT-family
954
6
VARGPT V1.1 Edit
Apache-2.0
VARGPT-v1.1是一个通过迭代指令调优与强化学习提升的视觉自回归统一大模型,支持视觉理解和生成任务。
文本生成图像 Transformers 英语
V
VARGPT-family
169
1
Community Request 01 12B
基于多个Captain-Eris系列模型通过mergekit工具合并的预训练语言模型
大型语言模型 Transformers
C
Nitral-AI
19
3
AIbase
智启未来,您的人工智能解决方案智库
简体中文