P

Psst Fairseq Larger Rir

由 birgermoell 开发
该模型是基于Wav2vec 2.0架构的自动语音识别(ASR)模型,使用经过房间脉冲响应(RIR)增强的TIMIT数据集子集进行微调。
下载量 30
发布时间 : 4/15/2022

模型简介

专为音素识别任务优化的语音识别模型,适用于嘈杂环境下的语音处理

模型特点

RIR增强训练数据
使用房间脉冲响应增强的TIMIT数据集,提高了模型在真实环境中的鲁棒性
Wav2vec 2.0基础
基于强大的Wav2vec 2.0架构进行微调,继承了其优秀的语音特征提取能力
音素级识别
专注于音素级别的语音识别任务,适合需要精细语音分析的应用场景

模型能力

英语语音识别
音素级别分析
嘈杂环境语音处理

使用案例

语音技术研究
音素识别基准测试
可作为音素识别任务的基准模型进行比较研究
PER: 21.0%, FER: 9.2%
语音增强应用
嘈杂环境语音识别
适用于会议室、公共场所等有回声和噪声的环境中的语音识别
AIbase
智启未来,您的人工智能解决方案智库
简体中文