开源协议: mit
数据集:
- awsaf49/sonics
语言:
- 英语
评估指标:
- f1分数
任务标签: 音频分类
标签:
- 深度伪造
- 音频分类
- 假歌检测
- 音乐
- 歌曲
SONICS:真伪鉴别——识别伪造歌曲
ICLR 2025 [海报展示]
摘要
近期AI生成歌曲的激增既带来了令人兴奋的可能性,也带来了新的挑战。这些创新技术需要具备区分人类创作与合成歌曲的能力,以保护艺术完整性和人类音乐艺术。现有的假歌检测研究和数据集仅关注歌唱声音深度伪造检测(SVDD),即人声由AI生成但伴奏音乐来自真实歌曲。然而,这些方法无法检测当代端到端人工歌曲——其中所有组成部分(人声、音乐、歌词和风格)都可能由AI生成。此外,现有数据集缺乏音乐-歌词多样性、长时歌曲和开放获取的假歌资源。为填补这些空白,我们推出了SONICS——一个用于端到端合成歌曲检测(SSD)的创新数据集,包含超过97,000首歌曲(4,751小时),其中49,000多首合成歌曲来自Suno和Udio等热门平台。更重要的是,我们强调了建模歌曲中长期时序依赖关系对于有效性真实性检测的重要性——这一维度在现有方法中完全被忽视。为利用长时模式,我们提出了SpecTTTra架构,相比传统CNN和基于Transformer的模型,该架构显著提升了时间和内存效率。对于长歌曲,我们表现最佳的变体在F1分数上比ViT高出8%,速度快38%,内存消耗少26%,同时以1%的F1分数优势超越ConvNeXt,速度提升20%,内存减少67%。
相关链接
模型性能
模型名称 |
HF链接 |
变体 |
时长 |
f_clip |
t_clip |
F1分数 |
敏感度 |
特异度 |
速度(A/S) |
FLOPs(G) |
内存(GB) |
激活数(M) |
参数量(M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5秒 |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5秒 |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5秒 |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120秒 |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120秒 |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120秒 |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
模型架构
- 基础模型: SpecTTTra(频谱-时序令牌转换器)
- 嵌入维度: 384
- 注意力头数: 6
- 网络层数: 12
- MLP比率: 2.67
音频处理
- 采样率: 16kHz
- FFT尺寸: 2048
- 帧移: 512
- 梅尔频带数: 128
- 频率范围: 20Hz-8kHz
- 归一化: 均值-标准差归一化
使用指南
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-alpha-120s")
引用文献
@inproceedings{rahman2024sonics,
title={SONICS:真伪鉴别——识别伪造歌曲},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={国际学习表征会议(ICLR)},
year={2025},
}