Omniaudio 2.6B
OmniAudio是全球最快且最高效的适用于设备端部署的音频语言模型,拥有26亿参数,能够处理文本和音频输入。
下载量 248
发布时间 : 12/11/2024
模型简介
OmniAudio-2.6B是一个多模态模型,集成了Gemma-2-2b、Whisper turbo和自定义投影模块,可直接在边缘设备上实现安全、响应迅速的音频文本处理。
模型特点
高效设备端部署
专为边缘设备设计,实现最低延迟和资源开销。
多模态处理
能够同时处理文本和音频输入,统一ASR和LLM功能。
高性能推理
在消费级硬件上实现5.5倍至10.3倍的更快性能。
离线功能
支持无网络环境下的语音问答和处理。
模型能力
音频文本处理
语音问答
语音对话
创意内容生成
录音总结
语音语调修改
使用案例
语音交互
无网络语音问答
处理离线语音查询,例如“我在露营,没有火种如何生火?”
提供实用指导
语音对话
进行关于个人经历的对话。当你说“我今天工作不顺”时,OmniAudio会进行支持性的交谈并积极倾听。
支持性交谈
内容生成
创意内容生成
将语音提示转化为创意作品。询问“写一首关于秋叶的俳句”,并获得受你语音输入启发的诗意回应。
生成创意作品
办公效率
录音总结
只需询问“你能总结一下这个会议记录吗?”即可将冗长的录音转换为简洁、可操作的总结。
简洁、可操作的总结
语音语调修改
将随意的语音备忘录转换为专业的沟通内容。当你请求“你能让这个语音备忘录更专业吗?”时,OmniAudio会在保留核心信息的同时调整语调。
专业化的沟通内容
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文