B

Bp500 Base100k Voxpopuli

由 lgris 开发
针对巴西葡萄牙语优化的语音识别模型,使用7个公开数据集共453小时语音训练
下载量 23
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于Wav2vec 2.0架构的巴西葡萄牙语自动语音识别(ASR)系统,通过多个公开数据集微调获得,支持无语言模型和4-gram语言模型增强两种模式。

模型特点

多数据集训练
整合7个巴西葡萄牙语数据集(CETUC/Common Voice/MLS等)共453小时训练数据
语言模型支持
可选4-gram语言模型增强,平均WER从0.155降至0.157
跨领域适应性
在朗读语音(CETUC)和自然语音(TEDx)等不同场景表现稳定

模型能力

巴西葡萄牙语语音转文本
支持16kHz采样率音频处理
批量语音识别

使用案例

语音转录
教育内容转录
将葡萄牙语教学音频转为文字稿
在朗读语音数据集上WER低至0.052
会议记录自动化
实时转录巴西葡萄牙语会议内容
在自然语音数据集上WER约0.317
语音助手
巴西葡萄牙语语音指令识别
为本地化智能设备提供语音交互支持
在短指令数据集上表现优异