A

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1

由 gary109 开发
该模型是基于wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2数据集上微调的自动语音识别模型,主要用于歌唱语音识别任务。
下载量 185
发布时间 : 6/24/2022
模型介绍
内容详情
替代品

模型简介

这是一个针对歌唱语音识别任务优化的自动语音识别模型,基于wav2vec2-large-xlsr-53架构微调,在特定数据集上表现出色。

模型特点

歌唱语音优化
专门针对歌唱语音进行微调,相比通用语音识别模型在歌唱场景表现更优
高效训练
采用梯度累积等技术,在相对较小的批次大小下实现有效训练
性能稳定
训练过程中验证损失和词错误率持续下降,表现出良好的收敛性

模型能力

歌唱语音识别
语音转文本
音频内容分析

使用案例

音乐技术
歌唱语音转歌词
将歌唱录音自动转换为文本歌词
词错误率约29.05%
音乐内容分析
分析歌唱录音中的歌词内容