Mmada 8B MixCoT
MIT
MMaDA是一类新型的多模态扩散基础模型,在文本推理、多模态理解和文本到图像生成等多个领域表现卓越。
文本生成图像
Transformers

M
Gen-Verse
601
3
RM R1 DeepSeek Distilled Qwen 14B
MIT
RM-R1是一个用于推理奖励模型(ReasRM)的训练框架,通过生成评分标准或推理轨迹来评判候选答案,提供可解释的评判。
大型语言模型
Transformers

英语
R
gaotang
95
1
Qwenlong L1 32B
Apache-2.0
QwenLong-L1是基于强化学习训练的长上下文大推理模型,在七个长上下文文档问答基准测试中表现优异。
大型语言模型
Transformers

Q
Tongyi-Zhiwen
683
106
Thinkless 1.5B Warmup
Apache-2.0
无思框架(Thinkless)是一种可学习框架,使大模型能根据任务复杂度和自身能力,自适应选择简短推理或长链推理。
大型语言模型
Transformers

T
Vinnnf
966
1
Qwen2.5 VL 3B UI R1 E
MIT
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
图像生成文本
英语
Q
LZXzju
75
3
INTELLECT 2 GGUF
Apache-2.0
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
大型语言模型
I
lmstudio-community
467
5
Llama 3.1 Nemotron Nano 8B V1 GGUF
其他
Llama-3.1-Nemotron-Nano-8B-v1是基于Meta Llama-3.1-8B-Instruct的推理模型,经过后训练增强推理能力、人类聊天偏好及任务执行能力。
大型语言模型
Transformers

英语
L
unsloth
22.18k
3
INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf
Apache-2.0
基于Qwen2.5-VL-72B-Instruct改进的多模态视觉语言模型,在多个视觉推理基准测试中表现优异
文本生成图像
英语
I
GeorgyGUF
64
0
INFRL Qwen2.5 VL 72B Preview Bf16.gguf
Apache-2.0
基于Qwen2.5-VL-72B-Instruct优化的视觉语言模型,在多个视觉推理基准测试中表现优异
文本生成图像
英语
I
GeorgyGUF
40
0
Llama 3.1 8B Instruct
Meta Llama 3.1系列多语言大型语言模型,包含8B参数规模,针对多语言对话用例优化,支持8种语言。
大型语言模型
Safetensors
支持多种语言
L
RedHatAI
292
1
II Medical 7B Preview
基于Qwen/Qwen2.5-7B-Instruct微调的医疗推理模型,在多个医疗QA基准测试上表现优异
大型语言模型
Transformers

I
Intelligent-Internet
112
9
Deephermes Financial Fundamentals Prediction Specialist Atropos
这是一个实验性金融分析模型,通过Atropos强化学习框架优化金融基本面预测能力
大型语言模型
Transformers

英语
D
NousResearch
52
5
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型,基于Qwen2.5-VL-7B-Instruct架构,增加了用于训练奖励模型的价值头结构。
多模态融合
Transformers

S
Skywork
30
8
Infigui R1 3B
Apache-2.0
基于Qwen2.5-VL-3B-Instruct的多模态GUI智能体,通过强化学习增强在图形用户界面任务中的规划和反思能力
图像生成文本
Transformers

支持多种语言
I
Reallm-Labs
105
1
Deepcoder 1.5B Preview GGUF
MIT
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习技术扩展长上下文处理能力
大型语言模型
英语
D
Mungert
888
2
Tinyllava Video R1
Apache-2.0
TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型,通过强化学习显著提升了推理与思维能力,并展现出'顿悟时刻'的涌现特性。
视频生成文本
Transformers

T
Zhang199
123
2
Deepcoder 14B Preview Exl2
DeepCoder-14B-Preview是基于DeepSeek-R1-Distill-Qwen-14B开发的代码生成模型,专注于可验证编程问题的解决。
大型语言模型
英语
D
cgus
46
2
Deepcoder 1.5B Preview Exl2 4.65bpw
MIT
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型,采用分布式强化学习技术扩展长上下文处理能力
大型语言模型
Transformers

英语
D
async0x42
14
3
Unt 8b
Apache-2.0
骆驼模型是一个基于变换器架构的文本生成模型,支持阿塞拜疆语,采用强化学习进行训练。
大型语言模型
Transformers

其他
U
omar07ibrahim
33
2
Quasar 3.0 Instract V2
Quasar-3.0-7B是即将发布的400B Quasar 3.0模型的蒸馏版本,展示了Quasar架构的早期实力和潜力。
大型语言模型
Transformers

Q
silx-ai
314
8
Quasar 3.0 Final
Quasar-3.0-Max是SILX INC提供的7B参数蒸馏模型,展示了Quasar架构的早期潜力,采用创新的TTM训练流程和强化学习技术。
大型语言模型
Transformers

Q
silx-ai
118
4
VARGPT V1.1
Apache-2.0
VARGPT-v1.1是一个视觉自回归统一大模型,通过迭代指令调优与强化学习提升,能够同时实现视觉理解和生成任务。
文本生成图像
Transformers

英语
V
VARGPT-family
954
6
VARGPT V1.1 Edit
Apache-2.0
VARGPT-v1.1是一个通过迭代指令调优与强化学习提升的视觉自回归统一大模型,支持视觉理解和生成任务。
文本生成图像
Transformers

英语
V
VARGPT-family
169
1
Community Request 01 12B
基于多个Captain-Eris系列模型通过mergekit工具合并的预训练语言模型
大型语言模型
Transformers

C
Nitral-AI
19
3
Qwen2.5 VL 3B UI R1
MIT
UI-R1是通过强化学习增强GUI代理动作预测的视觉语言模型,基于Qwen2.5-VL-3B-Instruct构建。
文本生成图像
英语
Q
LZXzju
96
6
R1 Aqa
Apache-2.0
R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型,通过群体相对策略优化(GRPO)算法进行强化学习优化,在MMAU基准测试中取得最先进性能。
音频生成文本
Transformers

R
mispeech
791
14
Light R1 14B DS
Apache-2.0
Light-R1-14B-DS是一个14B参数的数学SOTA模型,采用强化学习训练,在AIME24/25和GPQA基准测试中表现优异。
大型语言模型
Transformers

L
qihoo360
2,890
33
Visualthinker R1 Zero
MIT
首个在仅一个非监督微调的2B模型上复现'顿悟时刻'和响应长度增加的多模态推理模型
图像生成文本
英语
V
turningpoint-ai
578
6
DPO A5 Nlp
TRL 是一个基于 Transformer 架构的强化学习库,用于训练和微调语言模型。
大型语言模型
Transformers

D
EraCoding
26
1
Qwen2.5vl 3B VLM R1 REC 500steps
基于Qwen2.5-VL-3B-Instruct的视觉语言模型,通过VLM-R1强化学习增强,专注于指代表达式理解任务。
文本生成图像
Safetensors
英语
Q
omlab
976
22
Text2graph R1 Qwen2.5 0.5b
Apache-2.0
基于Qwen-2.5-0.5B模型,通过强化学习(GRPO)和监督学习联合训练而成的文本转图谱信息抽取模型。
知识图谱
Safetensors
英语
T
Ihor
199
20
STILL 3 1.5B Preview
STILL-3-1.5B-preview是一款采用强化学习技术增强推理能力的慢思考模型,在AIME基准测试中达到39.33%准确率
大型语言模型
Transformers

S
RUC-AIBOX
2,186
10
Cycleresearcher 12B Original
其他
CycleResearcher是基于强化学习与迭代反馈的自动化研究系统,专为机器学习研究训练,涵盖计算机视觉、自然语言处理等领域。
大型语言模型
Transformers

支持多种语言
C
WestlakeNLP
250
1
T5 Query Reformulation RL
Apache-2.0
这是一个专为搜索查询改写设计的生成模型,采用序列到序列架构和强化学习框架来生成多样化且相关的查询改写。
大型语言模型
Transformers

支持多种语言
T
prhegde
366
6
Speechless Llama2 Luban Orca Platypus 13b
本模型由AIDC-ai-business/Luban-13B与Open-Orca/OpenOrca-Platypus2-13B合并而成,是基于Llama 2架构的130亿参数大语言模型。
大型语言模型
Transformers

英语
S
uukuguy
94
4
Codet5 Large Ntp Py
Bsd-3-clause
CodeT5是基于Python语言NTP目标预训练的大规模编码器-解码器模型,专注于代码理解与生成任务
大型语言模型
Transformers

C
Salesforce
217
27
Ppo LunarLanderContinuous V2
这是一个基于PPO算法的强化学习智能体,专为LunarLanderContinuous-v2环境训练,能够控制登月器平稳着陆。
物理学模型
P
sb3
15
0
Ppo BreakoutNoFrameskip V4
这是一个基于 PPO 算法的强化学习智能体,专门用于在 BreakoutNoFrameskip-v4 游戏环境中进行训练和评估。
图像生成
P
sb3
22
0
Bart Rl
基于BART架构的韩语对话摘要模型,由'阿拉宫达拉宫'团队在2021年训民正音韩语语音•自然语言人工智能大赛中训练
文本生成
Transformers

韩语
B
alaggung
18
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文