W

Wespeaker Voxceleb Resnet293 LM

由 Wespeaker 开发
基于ResNet293架构的说话人嵌入模型,经过大间隔微调优化,支持说话人识别、相似度计算和语音分割等任务
下载量 108
发布时间 : 12/28/2023
模型介绍
内容详情
替代品

模型简介

该模型由Wespeaker项目提供,采用ResNet293架构并经过大间隔微调优化,主要用于说话人识别和语音处理任务。在VoxCeleb2开发数据集上训练,包含5994名说话人。

模型特点

大间隔微调优化
采用大间隔微调技术优化模型性能,显著提升说话人识别准确率
高效架构
基于ResNet293架构,在保持高性能的同时控制计算量
多任务支持
支持说话人嵌入提取、相似度计算和语音分割等多种任务

模型能力

说话人识别
说话人相似度计算
语音分割
说话人注册与识别

使用案例

语音生物识别
说话人验证
验证音频样本是否属于特定说话人
在VoxCeleb测试集上EER为0.447
语音分析
会议语音分割
识别和分割会议录音中的不同说话人