audio-flamingo-3开源音频语言模型 - 提升语音、音乐和声音推理理解能力

首页

Audio Flamingo 3

由 nvidia 开发

音频火烈鸟3是一款完全开源的先进大型音频语言模型，能够提升对语音、声音和音乐的推理与理解能力。

文本生成音频

Safetensors

英语开源协议:其他 #多模态音频理解 #长上下文处理 #语音交互助手

下载量 341

发布时间 : 7/10/2025

模型简介

音频火烈鸟3（AF3）是一款完全开源的先进大型音频语言模型（LALM），旨在提升对语音、声音和音乐的推理与理解能力，为音频智能领域带来新的突破。

模型特点

统一音频表示学习

能够统一处理语音、声音和音乐的表示学习

灵活的按需思维链推理

支持灵活的、按需的思维链推理

长上下文音频理解

可处理长达10分钟的音频输入，实现长上下文音频理解

多轮多音频对话

支持多轮、多音频的对话交互（AF3-Chat）

语音到语音交互

提供语音到语音的交互功能（AF3-Chat）

模型能力

音频问答

音频推理

长音频理解

多轮对话

语音交互

声音分析

音乐理解

使用案例

音频智能

音频问答系统

构建能够回答关于音频内容问题的系统

在20多个公开音频理解和推理任务上树立新基准

交互式声音设计助手

帮助声音设计师进行创意工作

语音交互

语音助手

开发更智能的语音助手应用

🚀 音频火烈鸟3（Audio Flamingo 3）

音频火烈鸟3（Audio Flamingo 3）是一款完全开源的先进大型音频语言模型，能够提升对语音、声音和音乐的推理与理解能力，为音频智能领域带来新的突破。

🚀 快速开始

模型地址：
- GitHub
- Hugging Face
演示地址：
- Demo Page
- Gradio Demo (7B)

音频火烈鸟3：借助完全开源的大型音频语言模型推动音频智能发展

✨ 主要特性

统一音频表示学习：能够统一处理语音、声音和音乐的表示学习。
灵活的按需思维链推理：支持灵活的、按需的思维链推理。
长上下文音频理解：可处理长达10分钟的音频输入，实现长上下文音频理解。
多轮多音频对话：支持多轮、多音频的对话交互（AF3-Chat）。
语音到语音交互：提供语音到语音的交互功能（AF3-Chat）。

通过广泛的评估，证实了音频火烈鸟3（AF3）的有效性，在20多个公开的音频理解和推理任务上树立了新的基准。

⚠️ 重要提示

此模型仅用于非商业研究目的。

📚 详细文档

模型概述

音频火烈鸟3（AF3）是一款完全开源的先进大型音频语言模型（LALM），旨在提升对语音、声音和音乐的推理与理解能力。

模型架构

音频火烈鸟3采用了以下组件：

AF-Whisper统一音频编码器
基于MLP的音频适配器
仅解码器的大语言模型骨干（Qwen2.5 - 7B）
流式TTS模块（AF3 - Chat）

该模型最多可处理10分钟的音频输入。

模型输入

属性	详情
输入类型	音频、文本
输入格式	WAV/MP3/FLAC、UTF - 8文本
输入参数	音频为二维（2D），文本为一维（1D）
最大音频长度	10分钟
最大文本长度	16000个标记

模型输出

属性	详情
输出类型	文本（可选语音）
文本格式	UTF - 8字符串
输出参数	一维（1D）
最大文本长度	1024个标记
语音格式	流式TTS（文本到语音）波形

软件集成

运行时引擎：PyTorch / HuggingFace Transformers
支持的硬件：
- NVIDIA Ampere（A100）
- NVIDIA Hopper（H100）
支持的操作系统：Linux

模型版本

v3.0

训练和测试数据集

训练数据集

AF3完全在开源音频数据上进行训练，这些数据被组织成四个新颖的大规模集合。对于每个数据集，标注方式分为人工标注和自动标注（即使用AI模型生成）。

数据收集方法：人工标注收集方法：见各数据集说明

通用声音数据集：
- WavCaps（自动）
- MACS（人工）
- SoundDescs（人工）
- Clotho - v2（人工）
- WavText5K（人工）
- Clotho - AQA（人工）
- Open - AQA（自动）
- CompA - R（自动）
- Salmonn AQA（自动）
- Audio Entailment（自动）
- CompA（自动）
- AudioSet（人工）
- YouTube - 8M（人工）
- FSD50k（人工）
- CochlScene（人工）
- NonSpeech7K（人工）
- Chime - Home（人工）
- Sonyc - UST（人工）
音乐数据集：
- LP - MusicCaps（自动）
- MusicQA（自动）
- MusicAVQA（人工）
- MusicBench（自动）
- Mu - LLAMA（自动）
- NSynth（人工）
- FMA（人工）
- MusDB - HQ（人工）
- Music4All（人工）
- Million Song Dataset（人工）
语音数据集：
- MSP - Podcast（人工）
- JL - Corpus（人工）
- MELD（人工）
- Tess（人工）
- OMGEmotion（人工）
- Emov - DB（人工）
- LibriSpeech（人工）
- SPGISpeech（人工）
- TEDLIUM（人工）
- GigaSpeech（人工）
- Common Voice 15（人工）
- VoxPopuli（人工）
- VoxCeleb2（人工）
- Switchboard（人工）
- AMI（人工）
语音助手数据集：
- VoiceAssistant - 400K（自动）
混合数据集：
- AudioSkills - XL (ours)（自动）
- LongAudio - XL (ours)（自动）
- AF - Think (ours)（自动）
- AF - Chat (ours)（自动）