wav2vec2开源音频分类模型 - 免费部署精准识别性别与检测伪造音频

首页

Wav2vec2 Large Xlsr Deepfake Audio Classification

由 Gustking 开发

基于wav2vec2架构的音频分类模型，针对深度伪造音频检测任务进行微调，在性别识别和伪造音频检测方面表现优异。

音频分类

Transformers

开源协议:Apache-2.0 #深度伪造音频检测 #高精度声纹识别 #ASVspoof2019优化

下载量 345

发布时间 : 5/15/2024

模型简介

该模型是基于wav2vec2架构的音频分类模型，专门针对深度伪造音频检测任务进行了微调。主要用于识别音频中的性别特征以及检测伪造音频，在ASVspoof2019等数据集上表现出色。

模型特点

高精度伪造音频检测

在ASVspoof2019评估子集上F1分数达到0.9363，等错误率仅为0.0401

优秀性别识别能力

在原始评估数据上F1分数达到0.95，损失值仅为0.4056

基于wav2vec2架构

采用强大的wav2vec2-large-xlsr-53架构，具备优秀的音频特征提取能力

模型能力

音频分类

性别识别

深度伪造音频检测

使用案例

安全检测

伪造音频识别

用于检测语音合成或语音转换等伪造音频

在ASVspoof2019数据集上准确率达92.86%

语音分析

说话人性别识别

识别音频中的说话人性别特征

F1分数达到0.95

指标	数值
F1	0.95
Loss	0.4056

指标	数值
Accuracy	0.9286
Precision	0.9999
Recall	0.9205
F1-Score	0.9363
Equal Error Rate (EER)	0.0401

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Wav2vec2 Large Xlsr Deepfake Audio Classification

模型简介

模型特点

模型能力

使用案例

🚀 深度伪造音频分类模型

🚀 快速开始

📚 详细文档

评估指标

评估数据

ASVspoof2019评估子集

📄 许可证