A

Audio Flamingo 3

由 nvidia 开发
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
下载量 341
发布时间 : 7/10/2025

模型简介

音频火烈鸟3(AF3)是一款完全开源的先进大型音频语言模型(LALM),旨在提升对语音、声音和音乐的推理与理解能力,为音频智能领域带来新的突破。

模型特点

统一音频表示学习
能够统一处理语音、声音和音乐的表示学习
灵活的按需思维链推理
支持灵活的、按需的思维链推理
长上下文音频理解
可处理长达10分钟的音频输入,实现长上下文音频理解
多轮多音频对话
支持多轮、多音频的对话交互(AF3-Chat)
语音到语音交互
提供语音到语音的交互功能(AF3-Chat)

模型能力

音频问答
音频推理
长音频理解
多轮对话
语音交互
声音分析
音乐理解

使用案例

音频智能
音频问答系统
构建能够回答关于音频内容问题的系统
在20多个公开音频理解和推理任务上树立新基准
交互式声音设计助手
帮助声音设计师进行创意工作
语音交互
语音助手
开发更智能的语音助手应用
AIbase
智启未来,您的人工智能解决方案智库
简体中文