OmniAudio-2.6B开源音频语言模型 - 高效处理文本音频，支持设备端部署

首页

Omniaudio 2.6B

由 NexaAI 开发

OmniAudio是全球最快且最高效的适用于设备端部署的音频语言模型，拥有26亿参数，能够处理文本和音频输入。

音频生成文本英语开源协议:Apache-2.0 #设备端音频处理 #低延迟语音交互 #多模态统一架构

下载量 248

发布时间 : 12/11/2024

模型简介

OmniAudio-2.6B是一个多模态模型，集成了Gemma-2-2b、Whisper turbo和自定义投影模块，可直接在边缘设备上实现安全、响应迅速的音频文本处理。

模型特点

高效设备端部署

专为边缘设备设计，实现最低延迟和资源开销。

多模态处理

能够同时处理文本和音频输入，统一ASR和LLM功能。

高性能推理

在消费级硬件上实现5.5倍至10.3倍的更快性能。

离线功能

支持无网络环境下的语音问答和处理。

模型能力

音频文本处理

语音问答

语音对话

创意内容生成

录音总结

语音语调修改

使用案例

语音交互

无网络语音问答

处理离线语音查询，例如“我在露营，没有火种如何生火？”

提供实用指导

语音对话

进行关于个人经历的对话。当你说“我今天工作不顺”时，OmniAudio会进行支持性的交谈并积极倾听。

支持性交谈

内容生成

创意内容生成

将语音提示转化为创意作品。询问“写一首关于秋叶的俳句”，并获得受你语音输入启发的诗意回应。

生成创意作品

办公效率

录音总结

只需询问“你能总结一下这个会议记录吗？”即可将冗长的录音转换为简洁、可操作的总结。

简洁、可操作的总结

语音语调修改

将随意的语音备忘录转换为专业的沟通内容。当你请求“你能让这个语音备忘录更专业吗？”时，OmniAudio会在保留核心信息的同时调整语调。

专业化的沟通内容

🚀 OmniAudio-2.6B

OmniAudio是全球最快且最高效的适用于设备端部署的音频语言模型，这是一个拥有26亿参数的多模态模型，能够处理文本和音频输入。它集成了Gemma - 2 - 2b、Whisper turbo和一个自定义投影模块，可直接在边缘设备上实现安全、响应迅速的音频文本处理。

Example

与将自动语音识别（ASR）和大语言模型（LLM）串联在一起的传统方法不同，OmniAudio - 2.6B将这两种能力统一在一个高效的架构中，实现了最低的延迟和资源开销。

🚀 快速开始

快速链接

在我们的HuggingFace Space中进行交互式演示
本地部署快速入门
在我们的博客中了解更多信息

反馈：在我们的Discord中发送有关模型的问题或建议。

演示

消费级硬件上的性能基准测试

在2024款Mac Mini M4 Pro上，运行在🤗 Transformers上的Qwen2 - Audio - 7B - Instruct平均解码速度为每秒6.38个令牌，而通过Nexa SDK运行的Omni - Audio - 2.6B在FP16 GGUF版本中达到每秒35.23个令牌，在Q4_K_M量化GGUF版本中达到每秒66个令牌，在消费级硬件上实现了5.5倍至10.3倍的更快性能。

✨ 主要特性

使用场景

无网络语音问答：处理离线语音查询，例如“我在露营，没有火种如何生火？”即使没有网络连接，OmniAudio也能提供实用指导。
语音对话：进行关于个人经历的对话。当你说“我今天工作不顺”时，OmniAudio会进行支持性的交谈并积极倾听。
创意内容生成：将语音提示转化为创意作品。询问“写一首关于秋叶的俳句”，并获得受你语音输入启发的诗意回应。
录音总结：只需询问“你能总结一下这个会议记录吗？”即可将冗长的录音转换为简洁、可操作的总结。
语音语调修改：将随意的语音备忘录转换为专业的沟通内容。当你请求“你能让这个语音备忘录更专业吗？”时，OmniAudio会在保留核心信息的同时调整语调。

📦 安装指南

如何在设备上使用

步骤1：安装Nexa - SDK（本地设备端推理框架）

🚀 安装Nexa - SDK

Nexa - SDK是一个开源的本地设备端推理框架，支持文本生成、图像生成、视觉语言模型（VLM）、音频语言模型、语音转文本（ASR）和文本转语音（TTS）功能。可通过Python包或可执行安装程序进行安装。

步骤2：然后在你的终端中运行以下代码

nexa run omniaudio -st

💻 OmniAudio - 2.6B q4_K_M版本需要1.30GB的RAM和1.60GB的存储空间。

🔧 技术细节

训练

我们通过三阶段训练流程开发了OmniAudio：

预训练：初始阶段专注于使用MLS英语10k转录数据集进行核心音频 - 文本对齐。我们引入了特殊的<|transcribe|>标记，使模型能够区分转录和完成任务，确保在各种使用场景下性能一致。
有监督微调（SFT）：我们使用从MLS英语10k转录中派生的合成数据集来增强模型的对话能力。此阶段利用专有模型生成上下文合适的响应，创建丰富的音频 - 文本对，以实现有效的对话理解。
直接偏好优化（DPO）：最后阶段使用GPT - 4o API作为参考来优化模型质量。该过程识别并纠正不准确的响应，同时保持语义对齐。我们还利用Gemma2的文本响应作为黄金标准，以确保在音频和文本输入上的质量一致。