强化学习微调
Finetuned Tamil Llama 7B Finetuned
基于Transformers库的监督微调(SFT)模型,用于优化语言模型的性能
大型语言模型
Transformers
F
Jaggu05
73
1
Xgen Small 9B Instruct R
xGen-small是一款企业级紧凑型语言模型,通过领域聚焦的数据整理、可扩展的预训练、长度扩展和强化学习微调,以可预测的低成本实现长上下文性能表现。
大型语言模型
Transformers
英语
X
Salesforce
97
4
Qwen3 0.6B TLDR Lora
Apache-2.0
Qwen3-0.6B 是一个基于 Transformer 架构的开源语言模型,参数规模为 6 亿,适用于文本摘要等自然语言处理任务。
文本生成
Q
phh
56
0
Phi 4 Reasoning Plus GGUF
MIT
Phi-4-reasoning-plus 是微软开发的增强推理能力的大语言模型,专为复杂数学问题和多步骤推理任务优化。
大型语言模型
支持多种语言
P
lmstudio-community
5,205
4
Qwen 2.5 7B Base RAG RL
Qwen-2.5-7B-base-RAG-RL 是一个基于未知数据集从头开始训练的7B参数规模的大语言模型,结合了检索增强生成(RAG)和强化学习(RL)技术。
大型语言模型
Transformers
Q
XXsongLALA
859
7
Phi 4 Reasoning Plus
MIT
Phi-4-reasoning-plus 是微软研究院开发的先进开放权重推理模型,基于 Phi-4 通过监督微调和强化学习优化,专注于数学、科学和编码领域的高级推理能力。
大型语言模型
Transformers
支持多种语言
P
microsoft
19.83k
261
Deepcoder 1.5B Preview AWQ
MIT
DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型,通过分布式强化学习从DeepSeek-R1-Distilled-Qwen-1.5B微调而来,能够处理更长的上下文长度。
大型语言模型
Transformers
英语
D
adriabama06
72
2
Deephermes ToolCalling Specialist Atropos
由Nous Research使用Atropos强化学习框架微调的实验性模型,专注于提升Llama-3.1 8B模型在推理模式下的工具调用性能
大型语言模型
Transformers
英语
D
NousResearch
64
4
Ablation 141 A128.dpo.armorm.rp Shisa V2 Llama 3.1 8b
基于DPO方法微调的语言模型,适用于文本生成任务
大型语言模型
Transformers
A
shisa-ai
38
2
Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale
基于Gensyn/Qwen2.5-0.5B-Instruct微调的版本,采用TRL框架和GRPO算法训练
大型语言模型
Transformers
Q
gangchen
3,053
2
Notbad V1 0 Mistral 24b
Apache-2.0
Notbad v1.0 Mistral 24B 是一款专注于数学和Python编程推理的模型,基于Mistral-Small-24B-Instruct-2501并通过强化学习进一步训练。
大型语言模型
Transformers
N
notbadai
29
5
EXAONE 3.5 2.4B Fine Tuning
Hugging Face提供的Transformer模型库,支持多种自然语言处理任务
大型语言模型
Transformers
E
good593
65
2
Qwen2.5 0.5B Instruct
Apache-2.0
专为Gensyn强化学习群设计的0.5B参数指令微调模型,支持本地微调训练
大型语言模型
Transformers
英语
Q
Gensyn
2.4M
5
Ice0.101 20.03 RP GRPO 1
Apache-2.0
基于Unsloth无惰性优化框架和Huggingface TRL训练库优化的薄雾模型,实现2倍速训练效率
大型语言模型
Transformers
英语
I
icefog72
55
2
Deductive Reasoning Qwen 32B
MIT
基于Qwen 2.5 32B Instruct通过强化微调训练的模型,专门用于解决Temporal Clue数据集中具有挑战性的演绎推理问题。
大型语言模型
Transformers
英语
D
OpenPipe
1,669
39
Tifa DeepsexV2 7b MGRPO Safetensors GGUF
Apache-2.0
Tifa-DeepsexV2-7b-MGRPO-safetensors 是一个基于 transformers 库的多语言(中文和英语)大语言模型,经过增量预训练、监督微调和强化学习优化,适用于角色扮演和思维链任务。
大型语言模型
支持多种语言
T
mradermacher
283
1
Llama 3.1 Tulu 3.1 8B
Tülu 3 是领先的指令跟随模型家族,提供完全开源的数据、代码和训练方案作为现代技术的综合指南。
大型语言模型
Transformers
英语
L
allenai
3,643
33
Alignprop Trl Aesthetics
Apache-2.0
基于Stable Diffusion v1.5微调的文本生成图像模型,采用动物数据集上的美学奖励函数,通过奖励反向传播方法进行训练。
图像生成
A
mihirpd
15
1
Ppo Tldr
基于EleutherAI_pythia-1b-deduped模型微调的版本,用于生成简洁摘要
大型语言模型
Transformers
P
vwxyzjn
15
1
Llama 3 NeuralPaca 8b
基于Meta LLAMA-3-8B构建的优化模型,采用无惰优化技术和Huggingface TRL库训练,速度提升2倍
大型语言模型
Transformers
英语
L
NeuralNovel
21
7
Vlrm Blip2 Opt 2.7b
MIT
通过强化学习方法微调的BLIP-2 OPT-2.7B模型,能够生成长且全面的图像描述
图像生成文本
Transformers
英语
V
sashakunitsyn
398
17
Codellama 7b Hf ReFT GSM8k
通过强化微调增强大语言模型的推理泛化能力,基于Codellama微调,适用于代码生成与理解任务。
大型语言模型
Transformers
C
lqtrung1998
38
1
Blip Image Captioning Base Mocha
MIT
BLIP基础模型的官方检查点,采用MOCHA强化学习框架在MS-COCO数据集上微调,用于缓解开放词汇描述幻觉问题
图像生成文本
Transformers
B
moranyanuka
88
1
Blip Image Captioning Large Mocha
MIT
这是BLIP-Large模型的官方微调版本,采用MOCHa强化学习框架在MS-COCO数据集上进行微调,旨在缓解开放词汇描述幻觉问题
图像生成文本
Transformers
B
moranyanuka
188
10