W

Wav2vec2 Xls R 300m Ca

由 PereLluis13 开发
基于facebook/wav2vec2-xls-r-300m在加泰罗尼亚语数据集上微调的语音识别模型,支持自动语音识别任务。
下载量 116
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是针对加泰罗尼亚语的自动语音识别(ASR)模型,在多个加泰罗尼亚语数据集上进行了微调,能够将语音转换为文本。

模型特点

多数据集训练
在MOZILLA-FOUNDATION/COMMON_VOICE_8_0、tv3_parla和parlament_parla等多个加泰罗尼亚语数据集上进行了微调
数字转换支持
使用特殊处理将数字转换为文字形式,提高数字识别准确率
优化的训练流程
采用精心设计的预处理流程和训练超参数,包括线性学习率调度和AMP混合精度训练

模型能力

加泰罗尼亚语语音识别
语音转文本
数字识别

使用案例

媒体转录
电视节目字幕生成
为加泰罗尼亚语电视节目自动生成字幕
在tv3_parla数据集上WER为23.32%
会议记录
议会会议记录
自动转录加泰罗尼亚议会会议内容
在parlament_parla数据集上WER为8.05%
语音助手
加泰罗尼亚语语音输入
为加泰罗尼亚语语音助手提供语音识别能力
在Common Voice数据集上WER为13.17%