W

Wav2vec2 Base 960h Finetuned Common Voice3

由 obokkkk 开发
基于facebook/wav2vec2-base-960h微调的语音识别模型,适用于通用语音识别任务
下载量 20
发布时间 : 4/28/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于wav2vec2-base-960h在Common Voice数据集上微调的版本,主要用于自动语音识别(ASR)任务。

模型特点

基于wav2vec2架构
采用先进的wav2vec2架构,提供高质量的语音识别能力
在Common Voice数据集上微调
模型在Common Voice数据集上进行了微调,提升了识别准确率
支持大规模训练
训练过程中使用了1024的总批次大小,确保模型充分学习数据特征

模型能力

语音识别
音频转文本

使用案例

语音转录
会议记录
将会议录音自动转换为文字记录
字幕生成
为视频内容自动生成字幕
语音助手
语音指令识别
识别并处理用户的语音指令