O

Omniaudio 2.6B

由 NexaAI 开发
OmniAudio是全球最快且最高效的适用于设备端部署的音频语言模型,拥有26亿参数,能够处理文本和音频输入。
下载量 248
发布时间 : 12/11/2024

模型简介

OmniAudio-2.6B是一个多模态模型,集成了Gemma-2-2b、Whisper turbo和自定义投影模块,可直接在边缘设备上实现安全、响应迅速的音频文本处理。

模型特点

高效设备端部署
专为边缘设备设计,实现最低延迟和资源开销。
多模态处理
能够同时处理文本和音频输入,统一ASR和LLM功能。
高性能推理
在消费级硬件上实现5.5倍至10.3倍的更快性能。
离线功能
支持无网络环境下的语音问答和处理。

模型能力

音频文本处理
语音问答
语音对话
创意内容生成
录音总结
语音语调修改

使用案例

语音交互
无网络语音问答
处理离线语音查询,例如“我在露营,没有火种如何生火?”
提供实用指导
语音对话
进行关于个人经历的对话。当你说“我今天工作不顺”时,OmniAudio会进行支持性的交谈并积极倾听。
支持性交谈
内容生成
创意内容生成
将语音提示转化为创意作品。询问“写一首关于秋叶的俳句”,并获得受你语音输入启发的诗意回应。
生成创意作品
办公效率
录音总结
只需询问“你能总结一下这个会议记录吗?”即可将冗长的录音转换为简洁、可操作的总结。
简洁、可操作的总结
语音语调修改
将随意的语音备忘录转换为专业的沟通内容。当你请求“你能让这个语音备忘录更专业吗?”时,OmniAudio会在保留核心信息的同时调整语调。
专业化的沟通内容
AIbase
智启未来,您的人工智能解决方案智库
简体中文