S

Stt Ru Conformer Ctc Large

由 nvidia 开发
这是一个用于俄语自动语音识别的大型Conformer-CTC模型,在约1636小时的俄语语音数据上训练,具有约1.2亿参数。
下载量 452
发布时间 : 11/1/2022
模型介绍
内容详情
替代品

模型简介

该模型将俄语语音转录为包含空格的小写西里尔字母文本,采用Conformer架构和CTC损失函数,适用于高质量的语音转文本应用。

模型特点

高性能俄语识别
在多个俄语测试集上表现出色,如Common Voice 10.0测试集WER仅4.28%
大规模训练数据
在约1636小时的俄语语音数据上训练,包含多种来源的数据集
非自回归架构
采用Conformer-CTC架构,实现高效的单次前向推理
支持多种应用场景
适用于近距离和远场语音识别,在crowd和farfield场景下均有良好表现

模型能力

俄语语音识别
实时语音转文本
支持16kHz单声道音频输入

使用案例

语音转录
会议记录
将俄语会议录音自动转录为文字记录
高准确率的转录结果
语音助手
为俄语语音助手提供语音识别能力
低延迟的交互体验
媒体处理
视频字幕生成
为俄语视频内容自动生成字幕
准确率高达95%以上的字幕