wav2vec2-xls-r-300m-bengali开源模型 - 实现孟加拉语自动语音识别功能

首页

Wav2vec2 Xls R 300m Bengali

由 arijitx 开发

基于facebook/wav2vec2-xls-r-300m模型微调的孟加拉语自动语音识别模型，在OpenSLR_SLR53数据集上训练

语音识别

Transformers

其他开源协议:Apache-2.0 #孟加拉语语音识别 #低字错误率(CER)#5-gram语言模型增强

下载量 533

发布时间 : 3/2/2022

模型简介

这是一个针对孟加拉语优化的自动语音识别(ASR)模型，基于Facebook的wav2vec2-xls-r-300m架构微调而成，专门处理孟加拉语语音转文本任务。

模型特点

高精度孟加拉语识别

在OpenSLR_SLR53测试集上取得0.153的词错误率(WER)和0.034的字错误率(CER)

支持语言模型集成

可结合5-gram语言模型进一步提升识别准确率

专业数据集训练

使用OpenSLR_SLR53孟加拉语专业数据集进行微调

优化的训练参数

采用音频时间掩码(0.75概率)和特征掩码(0.25概率)等数据增强技术

模型能力

孟加拉语语音识别

语音转文本

支持语言模型集成

使用案例

语音转录

孟加拉语会议记录

将孟加拉语会议录音自动转录为文字记录

准确率达84.7%(WER 0.153)

语音助手

为孟加拉语语音助手提供语音识别能力

教育

语言学习应用

帮助学习者练习孟加拉语发音和听力

🚀 arijitx/wav2vec2-xls-r-300m-bengali

本模型是 facebook/wav2vec2-xls-r-300m 在 OPENSLR_SLR53 - 孟加拉语数据集上的微调版本，可用于自动语音识别任务，在评估集上取得了较好的效果。

🚀 快速开始

此模型是在 OPENSLR_SLR53 - 孟加拉语数据集上对 facebook/wav2vec2-xls-r-300m 进行微调得到的。它在评估集上取得了以下结果：

无语言模型时

词错误率（WER）：0.21726385291857586
字符错误率（CER）：0.04725010353701041

使用基于从 AI4Bharat IndicCorp 数据集中随机选取的 3000 万条句子训练的 5 元语言模型时

词错误率（WER）：0.15322879016421437
字符错误率（CER）：0.03413696666806267

注意：在总共 10935 个样本中，5% 用于评估。评估集有 10935 个示例，这些示例不包含在训练集中。训练使用了前 95% 的数据，评估使用了最后 5% 的数据。训练在 180k 步后停止。输出预测结果可在文件部分查看。

✨ 主要特性

语言支持：支持孟加拉语（bn）的自动语音识别。
数据集：基于 openslr、SLR53 和 AI4Bharat/IndicCorp 等数据集进行训练。
评估指标：使用词错误率（WER）和字符错误率（CER）进行评估。

📚 详细文档

模型信息

属性	详情
支持语言	孟加拉语（bn）
许可证	Apache-2.0
标签	自动语音识别、孟加拉语、hf-asr-leaderboard、openslr_SLR53、robust-speech-event
数据集	openslr、SLR53、AI4Bharat/IndicCorp
评估指标	词错误率（WER）、字符错误率（CER）

训练超参数

训练过程中使用了以下超参数：

dataset_name="openslr"
model_name_or_path="facebook/wav2vec2-xls-r-300m"
dataset_config_name="SLR53"
output_dir="./wav2vec2-xls-r-300m-bengali"
overwrite_output_dir
num_train_epochs="50"
per_device_train_batch_size="32"
per_device_eval_batch_size="32"
gradient_accumulation_steps="1"
learning_rate="7.5e-5"
warmup_steps="2000"
length_column_name="input_length"
evaluation_strategy="steps"
text_column_name="sentence"
chars_to_ignore , ? . ! - ; : \" “ % ‘ ” � — ’ … –
save_steps="2000"
eval_steps="3000"
logging_steps="100"
layerdrop="0.0"
activation_dropout="0.1"
save_total_limit="3"
freeze_feature_encoder
feat_proj_dropout="0.0"
mask_time_prob="0.75"
mask_time_length="10"
mask_feature_prob="0.25"
mask_feature_length="64"
preprocessing_num_workers 32

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

注意事项

训练和评估代码修改自：https://github.com/huggingface/transformers/tree/master/examples/research_projects/robust-speech-event 。
孟加拉语语音数据在 Common Voice 或 LibriSpeech 多语言数据集中不可用，因此使用了 OpenSLR53。
使用最小音频时长 0.5 秒对训练数据进行过滤，可能排除了 10 - 20 个样本。
OpenSLR53 转录文本不用于语言模型训练和评估。