R

R1 Aqa

由 mispeech 开发
R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型,通过群体相对策略优化(GRPO)算法进行强化学习优化,在MMAU基准测试中取得最先进性能。
下载量 791
发布时间 : 3/13/2025
模型介绍
内容详情
替代品

模型简介

R1-AQA是一个专门用于音频问答(AQA)任务的模型,通过强化学习优化,能够在少量训练数据下实现高性能。

模型特点

强化学习优化
使用群体相对策略优化(GRPO)算法进行优化,显著提升性能。
小样本高效训练
仅使用38k训练样本即超越监督微调效果,展示强化学习在小数据集上的优势。
高性能音频问答
在MMAU基准测试中取得最先进性能,优于多个大型模型。

模型能力

音频问答
音频内容理解
多选项问题回答

使用案例

智能助手
音频内容分析
分析音频内容并回答相关问题,如识别说话者性别等。
在MMAU测试中准确率高达69.76%
教育
音频学习辅助
帮助学生理解音频教学内容并回答问题。