OmniAudio-2.6B开源音频语言模型 - 端侧高效部署，支持文本音频输入

首页

Omniaudio 2.6B

由 NexaAIDev 开发

全球最快、最高效的端侧部署音频语言模型，2.6B参数的多模态模型，可同时处理文本和音频输入。

音频生成文本英语开源协议:Apache-2.0 #端侧音频处理 #低延迟对话 #离线语音问答

下载量 1,149

发布时间 : 12/11/2024

模型简介

OmniAudio-2.6B是一款高效的多模态模型，整合了Gemma-2-2b、Whisper turbo和定制投影模块，能够在边缘设备上直接实现安全、响应迅速的音频文本处理。

模型特点

端侧高效部署

专为边缘设备优化，实现最低延迟和资源开销。

多模态统一架构

将ASR和LLM能力整合在单一架构中，避免传统串联方案的性能瓶颈。

卓越推理速度

在消费级硬件上实现5.5倍至10.3倍的性能提升。

模型能力

音频文本转换

语音对话

创意内容生成

录音摘要

语音语调调整

使用案例

离线语音交互

无网络环境查询

处理无网络环境下的语音查询，如露营生火指导

提供实用指导

语音助手

情感支持对话

对用户表达的情绪给予支持性回应

积极倾听和回应

内容创作

语音转诗歌

将语音提示转化为创意作品

生成诗意回复

办公效率

会议记录摘要

将冗长录音转化为简洁摘要

可执行摘要

🚀 OmniAudio-2.6B

OmniAudio是全球最快且最高效的可用于设备端部署的音频语言模型，这是一个拥有26亿参数的多模态模型，能够处理文本和音频输入。它集成了Gemma - 2 - 2b、Whisper turbo和一个自定义投影模块这三个组件，可直接在边缘设备上实现安全、响应迅速的音频文本处理。

Example

与将自动语音识别（ASR）和大语言模型（LLM）串联在一起的传统方法不同，OmniAudio - 2.6B将这两种能力统一在一个高效的架构中，实现了极低的延迟和资源开销。

🚀 快速开始

快速链接

在我们的HuggingFace空间进行交互式演示
本地部署快速入门
在我们的博客中了解更多信息

反馈：在我们的Discord中发送关于模型的问题或建议。

演示

✨ 主要特性

消费级硬件上的性能基准

在2024款Mac Mini M4 Pro上，运行在🤗 Transformers上的Qwen2 - Audio - 7B - Instruct平均解码速度为每秒6.38个令牌，而通过Nexa SDK运行的Omni - Audio - 2.6B在FP16 GGUF版本中达到每秒35.23个令牌，在Q4_K_M量化GGUF版本中达到每秒66个令牌，在消费级硬件上实现了5.5倍至10.3倍的更快性能。

应用场景

无网络语音问答：处理离线语音查询，例如“我在露营，没有点火器怎么生火？” 即使没有网络连接，OmniAudio也能提供实用的指导。
语音对话：进行关于个人经历的对话。当你说“我今天工作不顺”时，OmniAudio会进行支持性的交谈并积极倾听。
创意内容生成：将语音提示转化为创意作品。询问“写一首关于秋叶的俳句”，并获得受你语音输入启发的诗歌回应。
录音总结：只需询问“你能总结一下这个会议记录吗？” 即可将冗长的录音转换为简洁、可操作的总结。
语音语调修改：将随意的语音备忘录转换为专业的沟通内容。当你请求“你能让这个语音备忘录更专业吗？” 时，OmniAudio会在保留核心信息的同时调整语调。

📦 安装指南

如何在设备上使用

步骤1：安装Nexa - SDK（本地设备推理框架）

🚀 安装Nexa - SDK

⚠️ 重要提示

Nexa - SDK是一个开源的本地设备推理框架，支持文本生成、图像生成、视觉语言模型（VLM）、音频语言模型、语音转文本（ASR）和文本转语音（TTS）功能。可通过Python包或可执行安装程序进行安装。

步骤2：然后在终端中运行以下代码

nexa run omniaudio -st

💻 OmniAudio - 2.6B q4_K_M版本需要1.30GB的RAM和1.60GB的存储空间。

🔧 技术细节

训练

我们通过三阶段训练流程开发了OmniAudio：

预训练：初始阶段使用MLS英语10k转录数据集专注于核心音频文本对齐。我们引入了一个特殊的<|transcribe|>标记，使模型能够区分转录和完成任务，确保在各种用例中保持一致的性能。
有监督微调（SFT）：我们使用从MLS英语10k转录中派生的合成数据集来增强模型的对话能力。此阶段利用专有模型生成上下文合适的响应，创建丰富的音频文本对，以实现有效的对话理解。
直接偏好优化（DPO）：最后阶段使用GPT - 4o API作为参考来优化模型质量。该过程识别并纠正不准确的响应，同时保持语义对齐。我们还利用Gemma2的文本响应作为黄金标准，以确保在音频和文本输入方面都保持一致的质量。