voiceGUARD开源音频分类器 - 免费部署，精准区分真人与AI生成语音

首页

Voiceguard

由 Mrkomiljon 开发

基于Wav2Vec2微调的音频分类器，能够区分真人语音和AI生成语音。

音频分类

Transformers

英语开源协议:MIT #AI语音鉴别 #高精度音频分类 #语音防伪

下载量 127

发布时间 : 12/2/2024

模型简介

该模型用于检测音频是否为AI生成，可识别多种TTS模型生成的语音，适用于语音安全验证场景。

模型特点

高准确率分类

测试集验证准确率达99.8%，能有效区分真人语音与多种AI生成语音

多模型兼容

支持识别Melgan、DiffWave等多种TTS模型生成的语音

轻量级部署

基于Wav2Vec2-base架构，适合实时推理场景

模型能力

音频分类

AI生成语音检测

语音真实性验证

使用案例

安全验证

语音钓鱼防护

检测可疑电话中的AI合成语音

可识别99%以上的已知TTS模型生成语音

内容审核

虚假音频识别

识别社交媒体中的AI生成语音内容

🚀 语音检测AI - 真实与AI音频分类器

本项目是一个基于Wav2Vec2微调的音频分类器，能够精准区分真实人类语音和AI生成语音。它在包含各种TTS模型样本和真实人类音频记录的数据集上进行了训练。

image/webp

🚀 快速开始

安装依赖

确保你已经安装了 transformers 和 torch：

pip install transformers torch torchaudio

使用示例

以下是如何使用VoiceGUARD进行音频分类的示例：

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
import torchaudio

# 加载模型和处理器
model_name = "Mrkomiljon/voiceGUARD"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
processor = Wav2Vec2Processor.from_pretrained(model_name)

# 加载音频
waveform, sample_rate = torchaudio.load("path_to_audio_file.wav")

# 必要时进行重采样
if sample_rate != 16000:
    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
    waveform = resampler(waveform)

# 预处理
inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)

# 推理
with torch.no_grad():
    logits = model(**inputs).logits
    predicted_ids = torch.argmax(logits, dim=-1)

# 映射到标签
labels = ["Real Human Voice", "AI-generated"]
prediction = labels[predicted_ids.item()]
print(f"Prediction: {prediction}")

✨ 主要特性

能够区分真实人类语音和AI生成语音。
在多种AI生成模型上具有较好的分类效果。

📦 安装指南

确保你已经安装了 transformers 和 torch：

pip install transformers torch torchaudio

💻 使用示例

基础用法

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
import torchaudio

# 加载模型和处理器
model_name = "Mrkomiljon/voiceGUARD"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
processor = Wav2Vec2Processor.from_pretrained(model_name)

# 加载音频
waveform, sample_rate = torchaudio.load("path_to_audio_file.wav")

# 必要时进行重采样
if sample_rate != 16000:
    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
    waveform = resampler(waveform)

# 预处理
inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)

# 推理
with torch.no_grad():
    logits = model(**inputs).logits
    predicted_ids = torch.argmax(logits, dim=-1)

# 映射到标签
labels = ["Real Human Voice", "AI-generated"]
prediction = labels[predicted_ids.item()]
print(f"Prediction: {prediction}")

📚 详细文档

模型概述

此模型是一个基于Wav2Vec2微调的音频分类器，能够区分真实人类语音和AI生成语音。它在包含各种TTS模型样本和真实人类音频记录的数据集上进行了训练。

模型详情

属性	详情
模型类型	Wav2Vec2ForSequenceClassification
微调数据集	包含真实和AI生成音频的自定义数据集
分类类别	1. 真实人类语音 2. AI生成（如Melgan、DiffWave等）
输入要求	- 音频格式：`.wav`、`.mp3`等 - 采样率：16kHz - 最大时长：10秒（较长音频会被截断，较短音频会被填充）