开源协议: mit
数据集:
- awsaf49/sonics
语言:
- 英文
评估指标:
- f1分数
任务标签: 音频分类
标签:
- 深度伪造
- 音频分类
- 假歌检测
- 音乐
- 歌曲
SONICS:真假鉴别——识别伪造歌曲
ICLR 2025 [海报展示]
📌 摘要
近期AI生成歌曲的激增既带来了令人兴奋的可能性,也带来了挑战。这些创新技术需要具备区分人类创作与合成歌曲的能力,以维护艺术完整性并保护人类音乐艺术。现有的假歌检测研究和数据集仅聚焦于歌唱声音深度伪造检测(SVDD),即人声由AI生成而伴奏音乐来自真实歌曲。然而,这些方法无法检测当代端到端人工歌曲——其中所有组成部分(人声、音乐、歌词和风格)都可能由AI生成。此外,现有数据集缺乏音乐-歌词多样性、长时歌曲和开放访问的假歌资源。为填补这些空白,我们推出SONICS——一个面向端到端合成歌曲检测(SSD)的新数据集,包含来自Suno、Udio等流行平台的超过97,000首歌曲(4,751小时),其中合成歌曲超过49,000首。我们特别强调建模歌曲中长期时间依赖关系对真实性检测的重要性,这是现有方法完全忽视的维度。为利用长时模式,我们提出SpecTTTra新型架构,相比传统CNN和Transformer模型显著提升时间与内存效率。对于长歌曲,我们的最佳变体在F1分数上超越ViT达8%,速度提升38%,内存占用减少26%;同时以1%的F1分数优势、20%的速度提升和67%的内存节省超越ConvNeXt。
🔗 相关链接
🏆 模型性能
模型名称 |
HF链接 |
变体 |
时长 |
频段片段 |
时域片段 |
F1分数 |
敏感度 |
特异度 |
速度(A/S) |
计算量(G) |
内存(GB) |
激活数(M) |
参数量(M) |
sonics-spectttra-alpha-5s |
HF |
SpecTTTra-α |
5秒 |
1 |
3 |
0.78 |
0.69 |
0.94 |
148 |
2.9 |
0.5 |
6 |
17 |
sonics-spectttra-beta-5s |
HF |
SpecTTTra-β |
5秒 |
3 |
5 |
0.78 |
0.69 |
0.94 |
152 |
1.1 |
0.2 |
5 |
17 |
sonics-spectttra-gamma-5s |
HF |
SpecTTTra-γ |
5秒 |
5 |
7 |
0.76 |
0.66 |
0.92 |
154 |
0.7 |
0.1 |
2 |
17 |
sonics-spectttra-alpha-120s |
HF |
SpecTTTra-α |
120秒 |
1 |
3 |
0.97 |
0.96 |
0.99 |
47 |
23.7 |
3.9 |
50 |
19 |
sonics-spectttra-beta-120s |
HF |
SpecTTTra-β |
120秒 |
3 |
5 |
0.92 |
0.86 |
0.99 |
80 |
14.0 |
2.3 |
29 |
21 |
sonics-spectttra-gamma-120s |
HF |
SpecTTTra-γ |
120秒 |
5 |
7 |
0.88 |
0.79 |
0.99 |
97 |
10.1 |
1.6 |
20 |
24 |
📐 模型架构
- 基础模型: SpecTTTra(频谱-时域令牌变换器)
- 嵌入维度: 384
- 注意力头数: 6
- 网络层数: 12
- MLP扩展比: 2.67
🎶 音频处理
- 采样率: 16kHz
- FFT尺寸: 2048
- 帧移: 512
- 梅尔频带数: 128
- 频率范围: 20Hz - 8kHz
- 归一化: 均值-标准差归一化
♻️ 使用方式
!pip install git+https://github.com/awsaf49/sonics.git
from sonics import HFAudioClassifier
model = HFAudioClassifier.from_pretrained("awsaf49/sonics-spectttra-gamma-5s")
📝 引用文献
@inproceedings{rahman2024sonics,
title={SONICS:真假鉴别——识别伪造歌曲},
author={Rahman, Md Awsafur and Hakim, Zaber Ibn Abdul and Sarker, Najibul Haque and Paul, Bishmoy and Fattah, Shaikh Anowarul},
booktitle={国际学习表征会议(ICLR)},
year={2025},
}