W

Wav2vec2 Large Xlsr Deepfake Audio Classification

由 Gustking 开发
基于wav2vec2架构的音频分类模型,针对深度伪造音频检测任务进行微调,在性别识别和伪造音频检测方面表现优异。
下载量 345
发布时间 : 5/15/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于wav2vec2架构的音频分类模型,专门针对深度伪造音频检测任务进行了微调。主要用于识别音频中的性别特征以及检测伪造音频,在ASVspoof2019等数据集上表现出色。

模型特点

高精度伪造音频检测
在ASVspoof2019评估子集上F1分数达到0.9363,等错误率仅为0.0401
优秀性别识别能力
在原始评估数据上F1分数达到0.95,损失值仅为0.4056
基于wav2vec2架构
采用强大的wav2vec2-large-xlsr-53架构,具备优秀的音频特征提取能力

模型能力

音频分类
性别识别
深度伪造音频检测

使用案例

安全检测
伪造音频识别
用于检测语音合成或语音转换等伪造音频
在ASVspoof2019数据集上准确率达92.86%
语音分析
说话人性别识别
识别音频中的说话人性别特征
F1分数达到0.95