M

Mctct Large

由 cwkeam 开发
Meta AI推出的大规模多语言语音识别模型,具有10亿参数,支持60种语言的字符级转录
下载量 21
发布时间 : 5/5/2022
模型介绍
内容详情
替代品

模型简介

M-CTC-T是一个基于Transformer编码器的大规模多语言语音识别模型,配备CTC头部和语言识别头部,能够处理60种语言的语音输入并输出字符级转录文本(保留标点符号和大小写)。

模型特点

多语言支持
支持60种语言的语音识别,具有语言识别能力
大规模训练
基于10亿参数量的Transformer架构,训练数据来自Common Voice和VoxPopuli
字符级转录
输出保留原始文本的标点符号和大小写格式
端到端模型
直接从16kHz音频信号提取的梅尔滤波器组特征进行识别

模型能力

多语言语音识别
语言识别
字符级文本转录

使用案例

语音转文字
会议记录自动转录
将多语言会议录音自动转换为文字记录
语音助手
支持多语言的语音指令识别
语音分析
多语言内容分析
分析不同语言的语音内容