W

Wav2vec2 Large Superb Sid

由 superb 开发
基于 Wav2Vec2-Large 架构的说话人识别模型,在 VoxCeleb1 数据集上训练,用于将语音按说话人身份分类
下载量 27
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个用于说话人识别的音频分类模型,基于 Facebook 的 wav2vec2-large-lv60 模型微调而来,能够识别不同说话人的语音特征并进行分类。

模型特点

高准确率
在 VoxCeleb1 测试集上达到 86.13% 的准确率
基于 Wav2Vec2 预训练模型
利用 wav2vec2-large-lv60 的强大语音表示能力进行微调
16kHz 语音支持
专门针对 16kHz 采样的语音音频优化

模型能力

说话人识别
语音分类
音频特征提取

使用案例

安全认证
语音身份验证
通过语音识别用户身份进行安全认证
语音分析
会议记录分析
识别会议录音中不同发言人的语音片段