GRPO微调

# GRPO微调

GRPO VI Qwen2 7B RAG

基于Qwen2.5-7B-Instruct微调的越南语检索增强生成(RAG)专用大模型，采用GRPO优化方法训练

大型语言模型

Transformers 其他

Xiyansql QwenCoder 7B 2504

基于QwenCoder微调的SQL生成模型，支持多种方言，性能优异

文本生成支持多种语言

Nano Aha Moment 3b

一个30亿参数的语言模型，通过强化学习训练用于解决数学推理任务，特别是倒计时游戏。

大型语言模型

Gemma 3 4b Reasoning

Gemma-3-4b推理是基于Transformer架构的语言模型，采用GRPO方法微调，专注于推理任务优化。

大型语言模型

Transformers 英语

Thespis Llama 3.1 8B

Thespis-Llama-3.1-8B 是一款基于特定优化方法微调的语言模型，专为角色扮演、创意写作和交互式故事讲述场景设计，能提升角色互动的真实感和深度。

大型语言模型

Transformers 英语

Medqwen3b Reasoner

基于Qwen2.5-3B-Instruct的医学领域专用模型，擅长医学推理和数学问题解决

大型语言模型英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24