voice - gender - classifier开源语音性别分类模型 - 免费部署精准识别语音性别

首页

Voice Gender Classifier

由 JaesungHuh 开发

基于ECAPA-TDNN架构的预训练模型，用于从人类语音中分类性别

音频分类

Transformers

开源协议:MIT #ECAPA-TDNN微调 #高精度性别识别 #说话人特征分析

下载量 14.01k

发布时间 : 5/13/2024

模型简介

该模型使用预训练的ECAPA-TDNN架构进行微调，专门用于从语音中识别说话者的性别。在VoxCeleb1测试集上达到98.7%的准确率。

模型特点

高准确率

在VoxCeleb1测试集上达到98.7%的准确率

基于ECAPA-TDNN

使用最先进的说话人验证模型架构

简单易用

提供直接的预测接口，只需输入音频文件即可获取结果

模型能力

语音性别分类

音频特征提取

使用案例

语音分析

说话者性别识别

从语音片段中识别说话者的性别

98.7%的准确率(VoxCeleb1测试集)

语音处理预处理

语音数据分类

在语音处理流程中预先分类语音性别

🚀 语音性别分类器

本项目包含了使用预训练的人类语音性别分类器进行推理的代码。你还可以尝试😎Huggingface在线演示。

🚀 快速开始

安装指南

📦 安装步骤

首先，克隆原始的GitHub仓库：

git clone https://github.com/JaesungHuh/voice-gender-classifier.git

然后通过pip安装所需的包：

cd voice-gender-classifier
pip install -r requirements.txt

💻 使用示例

基础用法

import torch

from model import ECAPA_gender

# 你可以直接从huggingface模型中心下载模型
model = ECAPA_gender.from_pretrained("JaesungHuh/voice-gender-classifier")
model.eval()

# 如果你使用GPU... 
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 加载音频文件并使用predict函数直接获取输出
example_file = "data/00001.wav"
with torch.no_grad():
    output = model.predict(example_file, device=device)
    print("Gender : ", output)

📚 详细文档

预训练权重

对于需要预训练权重的用户，请从这里下载。

训练细节

最先进的说话人验证模型已经能够很好地表示说话人的性别特征。

我使用了来自TaoRuijie仓库的预训练ECAPA - TDNN模型，添加了一个线性层以构建二分类器，并使用VoxCeleb2开发集对模型进行了微调。

该模型在VoxCeleb1识别测试集上达到了98.7% 的准确率。

🔧 技术细节

本项目使用了先进的说话人验证模型ECAPA - TDNN作为基础，通过添加线性层构建了一个语音性别分类器。在训练过程中，使用了VoxCeleb2开发集进行微调，使得模型在VoxCeleb1识别测试集上取得了较好的效果。

📄 许可证

本项目采用MIT许可证。

⚠️ 重要提示

我想提醒的是，我用于训练此模型的数据集（VoxCeleb）可能无法代表全球人类群体。在使用此模型时，请小心可能存在的意外偏差。

📖 参考资料

原始GitHub仓库
我修改了来自TaoRuijie仓库的模型架构。
有关ECAPA - TDNN的更多详细信息，请查看论文。

属性	详情
标签	pytorch_model_hub_mixin、model_hub_mixin、gender - classification、VoxCeleb
许可证	MIT
数据集	ProgramComputer/voxceleb
任务类型	音频分类