A

Aero 1 Audio

由 lmms-lab 开发
轻量级音频模型,擅长语音识别、音频理解及执行音频指令等多元任务
下载量 1,348
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

基于Qwen-2.5-1.5B语言模型构建的轻量级音频模型,在多项音频基准测试中表现优异,能精准处理长达15分钟的连续音频输入。

模型特点

参数高效
即使与Whisper、Qwen-2-Audio、Phi-4-Multimodal等更大规模模型或ElevenLabs/Scribe等商业服务相比,仍保持参数高效性。
训练效率高
仅用16张H100显卡和5万小时音频数据,在一天内完成训练。高质量过滤数据显著提升训练样本效率。
长音频处理能力
能精准处理长达15分钟的连续音频输入(包括ASR和语义理解),当前多数模型在此场景下仍面临挑战。

模型能力

语音识别
音频理解
执行音频指令

使用案例

语音转录
音频内容转录
将音频内容转录为文本
精准处理长达15分钟的连续音频输入
音频理解
音频语义理解
理解音频中的语义内容
在多项音频基准测试中表现优异