Q

Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale

由 gangchen 开发
基于Gensyn/Qwen2.5-0.5B-Instruct微调的版本,采用TRL框架和GRPO算法训练
下载量 3,053
发布时间 : 4/2/2025
模型介绍
内容详情
替代品

模型简介

一个经过强化学习群体训练的指令微调语言模型,专注于文本生成任务

模型特点

GRPO算法训练
采用源自DeepSeekMath论文的GRPO方法进行训练
TRL框架
使用Hugging Face的Transformer强化学习框架进行训练
强化学习群体
通过群体训练方式优化模型性能

模型能力

文本生成
指令理解
对话生成

使用案例

创意写作
时光机选择场景
生成关于时间旅行选择的创意回答
可产生富有想象力的文本输出
对话系统
开放域对话
用于构建开放域对话系统
能够理解指令并生成连贯回复