A

Asr Wav2vec2 Librispeech

由 speechbrain 开发
这是一个基于LibriSpeech数据集训练的端到端自动语音识别系统,结合了wav2vec 2.0预训练模型和CTC技术,在英语语音识别任务上表现出色。
下载量 1,667
发布时间 : 6/5/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个英语自动语音识别系统,使用wav2vec 2.0预训练模型结合CTC技术,在LibriSpeech数据集上微调而成。它能将英语语音准确转换为文本。

模型特点

高精度语音识别
在LibriSpeech测试集上达到1.90% (干净)和3.96% (其他)的词错误率(WER)
预训练模型微调
基于facebook/wav2vec2-large-960h-lv60-self预训练模型,在LibriSpeech上进一步微调
端到端系统
包含完整的分词器和声学模型,可直接用于语音转文本任务
易于使用
提供简单的API接口,只需几行代码即可实现语音转录

模型能力

英语语音识别
音频转录
自动语音转文本

使用案例

语音转录
会议记录
将会议录音自动转换为文字记录
高准确率的转录结果
语音笔记
将语音备忘录转换为可搜索的文本
辅助技术
实时字幕生成
为视频或直播内容生成实时字幕