T

TIGER Speech

由 JusperLee 开发
TIGER是一种轻量级语音分离模型,通过频带分割、多尺度和全频帧建模有效提取关键声学特征。
下载量 1,286
发布时间 : 1/22/2025
模型介绍
内容详情
替代品

模型简介

TIGER是一种参数规模和计算成本显著降低的语音分离模型,通过频带分割和交错建模结构,在保持高性能的同时大幅减少了参数和计算成本。

模型特点

轻量级设计
参数数量减少了94.3%,MACs减少了95.3%,同时保持高性能。
频带分割与压缩
利用先验知识划分频带并对频率信息进行压缩,提高效率。
多尺度选择性注意力
采用多尺度选择性注意力(MSA)模块提取上下文特征。
全频帧注意力
引入全频帧注意力(F^3A)模块捕捉时间和频率上下文信息。

模型能力

语音分离
高效计算
多尺度特征提取

使用案例

语音处理
复杂声学环境语音分离
在包含噪声和更真实混响的环境中分离重叠语音。
在EchoSet数据集上的推理速度和分离质量均显著优于TF-GridNet。