🚀 SONICS:合成与否 - 识别假冒歌曲
SONICS是一个用于端到端合成歌曲检测的新型数据集,可有效区分人类创作歌曲与合成歌曲,保护音乐艺术的完整性。同时,其引入的SpecTTTra架构在时间和内存效率上显著优于传统模型。
🚀 快速开始
安装
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-5s")
✨ 主要特性
- 新型数据集:SONICS数据集包含超97k首歌曲(4751小时),其中超49k首为来自Suno和Udio等流行平台的合成歌曲,弥补了现有数据集在音乐歌词多样性、长时长歌曲和开放访问假歌曲方面的不足。
- 创新架构:引入SpecTTTra架构,在时间和内存效率上显著优于传统的基于CNN和Transformer的模型。对于长歌曲,其表现最佳的变体在F1分数上比ViT高8%,速度快38%,内存使用减少26%,同时在F1分数上比ConvNeXt高1%,速度提升20%,内存减少67%。
📚 详细文档
摘要
近期,AI生成歌曲的激增带来了令人兴奋的可能性和挑战。这些创新要求我们具备区分人类创作歌曲和合成歌曲的能力,以维护艺术的完整性并保护人类的音乐创作。现有的假歌曲检测研究和数据集仅专注于歌唱语音深度伪造检测(SVDD),即人声由AI生成,但器乐音乐来自真实歌曲。然而,这些方法不足以检测当代的端到端人工歌曲,因为这些歌曲的所有组成部分(人声、音乐、歌词和风格)都可能由AI生成。此外,现有的数据集缺乏音乐歌词的多样性、长时长歌曲和开放访问的假歌曲。为了填补这些空白,我们推出了SONICS,这是一个用于端到端合成歌曲检测(SSD)的新型数据集,包含超过97k首歌曲(4751小时),其中超过49k首是来自Suno和Udio等流行平台的合成歌曲。此外,我们强调了在歌曲中建模长程时间依赖关系对于有效真实性检测的重要性,而这一方面在现有方法中完全被忽视。为了利用长程模式,我们引入了SpecTTTra,这是一种新型架构,在时间和内存效率上显著优于传统的基于CNN和Transformer的模型。对于长歌曲,我们表现最佳的变体在F1分数上比ViT高8%,速度快38%,内存使用减少26%,同时在F1分数上比ConvNeXt高1%,速度提升20%,内存减少67%。
链接
模型性能
模型名称 |
HF链接 |
变体 |
时长 |
f_clip |
t_clip |
F1 |
灵敏度 |
特异性 |
速度 (A/S) |
FLOPs (G) |
内存 (GB) |
# 激活 (M) |
# 参数 (M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5s |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5s |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5s |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120s |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120s |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120s |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
模型架构
属性 |
详情 |
基础模型 |
SpectTTTra(频谱 - 时间令牌变压器) |
嵌入维度 |
384 |
头的数量 |
6 |
层数 |
12 |
MLP比率 |
2.67 |
音频处理
属性 |
详情 |
采样率 |
16kHz |
FFT大小 |
2048 |
跳跃长度 |
512 |
梅尔带 |
128 |
频率范围 |
20Hz - 8kHz |
归一化 |
均值 - 标准差归一化 |
🔧 技术细节
SONICS数据集的构建旨在解决现有假歌曲检测研究和数据集的不足,通过引入大量的合成歌曲和长时长歌曲,提高了检测的准确性和泛化能力。SpecTTTra架构则通过对长程时间依赖关系的建模,在时间和内存效率上取得了显著的提升,为合成歌曲检测提供了更高效的解决方案。
📄 许可证
本项目采用MIT许可证。
📚 引用
@inproceedings{rahman2024sonics,
title={SONICS: Synthetic Or Not - Identifying Counterfeit Songs},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={International Conference on Learning Representations (ICLR)},
year={2025},
}