C

Ced Small

由 mispeech 开发
CED是基于ViT-Transformer的简易音频标注模型,在Audioset上实现了最先进的性能表现。
下载量 18
发布时间 : 11/24/2023
模型介绍
内容详情
替代品

模型简介

CED是一个用于音频分类的Transformer模型,特别优化了音频标注任务,支持可变长度输入并简化了微调流程。

模型特点

微调简化
梅尔频谱图的批归一化处理,微调时无需预先计算数据集的均值/方差
可变长度输入支持
突破传统Transformer对10秒片段的限制,提升模型泛化能力
高效训练/推理
采用优化的分块策略,相比AST模型显著减少计算量
高性能小模型
仅1000万参数的CED模型超越多数8000万参数的方案

模型能力

音频分类
音频标注
声音事件检测

使用案例

声音识别
环境声音分类
识别各种环境声音类型
在Audioset上达到49.6 mAP
特定声音检测
检测如响指声等特定声音事件
可准确识别527种声音类别