I

Indicconformer Stt As Hybrid Ctc Rnnt Large

由 ai4bharat 开发
IndicConformer 是一个基于混合 CTC-RNNT 架构的 Conformer 自动语音识别(ASR)模型,支持阿萨姆语语音转录。
下载量 101
发布时间 : 9/5/2024
模型介绍
内容详情
替代品

模型简介

该模型采用 Conformer-Large 架构作为编码器,配备混合 CTC-RNNT 解码器,能够将阿萨姆语语音转录为文本。

模型特点

混合解码器架构
结合 CTC 和 RNNT 解码器的优势,提高语音识别的准确性和鲁棒性。
大模型容量
包含 17 个 Conformer 模块,模型维度为 512,具有 1.2 亿参数,能够处理复杂的语音模式。
阿萨姆语支持
专门针对阿萨姆语优化的语音识别模型,适用于该语言的语音转录任务。

模型能力

阿萨姆语语音识别
混合 CTC-RNNT 解码
16kHz 单声道音频处理

使用案例

语音转录
阿萨姆语语音转文本
将阿萨姆语语音文件转录为文本,适用于语音记录、字幕生成等场景。