🚀 音频火烈鸟3(Audio Flamingo 3)
音频火烈鸟3(Audio Flamingo 3)是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力,为音频智能领域带来新的突破。
🚀 快速开始
音频火烈鸟3:借助完全开源的大型音频语言模型推动音频智能发展
✨ 主要特性
- 统一音频表示学习:能够统一处理语音、声音和音乐的表示学习。
- 灵活的按需思维链推理:支持灵活的、按需的思维链推理。
- 长上下文音频理解:可处理长达10分钟的音频输入,实现长上下文音频理解。
- 多轮多音频对话:支持多轮、多音频的对话交互(AF3-Chat)。
- 语音到语音交互:提供语音到语音的交互功能(AF3-Chat)。
通过广泛的评估,证实了音频火烈鸟3(AF3)的有效性,在20多个公开的音频理解和推理任务上树立了新的基准。
⚠️ 重要提示
此模型仅用于非商业研究目的。
📚 详细文档
模型概述
音频火烈鸟3(AF3)是一款完全开源的先进大型音频语言模型(LALM),旨在提升对语音、声音和音乐的推理与理解能力。
模型架构
音频火烈鸟3采用了以下组件:
- AF-Whisper统一音频编码器
- 基于MLP的音频适配器
- 仅解码器的大语言模型骨干(Qwen2.5 - 7B)
- 流式TTS模块(AF3 - Chat)
该模型最多可处理10分钟的音频输入。
模型输入
属性 |
详情 |
输入类型 |
音频、文本 |
输入格式 |
WAV/MP3/FLAC、UTF - 8文本 |
输入参数 |
音频为二维(2D),文本为一维(1D) |
最大音频长度 |
10分钟 |
最大文本长度 |
16000个标记 |
模型输出
属性 |
详情 |
输出类型 |
文本(可选语音) |
文本格式 |
UTF - 8字符串 |
输出参数 |
一维(1D) |
最大文本长度 |
1024个标记 |
语音格式 |
流式TTS(文本到语音)波形 |
软件集成
- 运行时引擎:PyTorch / HuggingFace Transformers
- 支持的硬件:
- NVIDIA Ampere(A100)
- NVIDIA Hopper(H100)
- 支持的操作系统:Linux
模型版本
v3.0
训练和测试数据集
训练数据集
AF3完全在开源音频数据上进行训练,这些数据被组织成四个新颖的大规模集合。对于每个数据集,标注方式分为人工标注和自动标注(即使用AI模型生成)。
数据收集方法:人工
标注收集方法:见各数据集说明
-
通用声音数据集:
-
音乐数据集:
-
语音数据集:
-
语音助手数据集:
-
混合数据集:
测试数据集
音频火烈鸟3在以下数据集的测试分割上进行评估:
推理信息
属性 |
详情 |
推理引擎 |
HuggingFace Transformers |
测试硬件 |
NVIDIA A100 80 GB |
伦理考量
NVIDIA认为可信AI是一项共同责任,并制定了相关政策和实践,以支持广泛的AI应用开发。当开发者按照服务条款下载或使用此模型时,应与内部模型团队合作,确保该模型符合相关行业和用例的要求,并解决潜在的产品滥用问题。
请在此报告安全漏洞或NVIDIA AI相关问题。
致谢
该模型基于Qwen、NVILA和开放音频机器学习社区构建。
🔧 技术细节
模型架构类型
Transformer
模型开发基础
该模型基于NVILA和Qwen - 2.5 - 7B开发。
软件集成
- 运行时引擎:PyTorch / HuggingFace Transformers
- 支持的硬件:
- NVIDIA Ampere(A100)
- NVIDIA Hopper(H100)
- 支持的操作系统:Linux
模型运行环境
我们的AI模型经过设计和优化,可在NVIDIA GPU加速系统(A100/H100)上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,该模型能够实现更快的训练和推理速度。
📄 许可证
该模型根据NVIDIA OneWay非商业许可证发布。部分数据集生成也遵循Qwen研究许可证和OpenAI的使用条款。
部署范围
全球
用例
该模型旨在供研究人员和开发者探索以下领域:
- 音频问答和推理
- 长上下文音频理解
- 交互式声音/音乐设计助手
- 多轮(语音)聊天
发布日期
- GitHub:2025年7月10日,链接
- Hugging Face:2025年7月10日,链接
参考资料