模型简介

这是一个针对孟加拉语优化的自动语音识别(ASR)模型，基于wav2vec2-xls-r-300m架构微调，在OpenSLR数据集上表现出色

模型特点

高精度孟加拉语识别

在OpenSLR测试集上达到17.78%的词错误率(WER)和4.39%的字错误率(CER)

支持语言模型集成

可结合5-gram语言模型进一步提升识别准确率

大规模训练数据

使用OPENSLR_SLR53数据集中的218,703条样本进行训练

模型能力

孟加拉语语音识别

语音转文本

支持语言模型增强

使用案例

语音转录

孟加拉语语音转写

将孟加拉语语音内容转换为文本

在测试集上达到0.17776 WER(带语言模型)

语音助手

孟加拉语语音交互

为孟加拉语语音助手提供语音识别能力

🚀 Tahsin-Mayeesha/wav2vec2-bn-300m

本模型是基于OPENSLR_SLR53 - 孟加拉语数据集对facebook/wav2vec2-xls-r-300m进行微调后的版本。它在自动语音识别任务中表现出色，为相关领域的研究和应用提供了有力支持。

✨ 主要特性

多语言支持：支持孟加拉语（bn）的自动语音识别。
高性能表现：在评估集上取得了良好的WER（词错误率）和CER（字符错误率）指标。
可扩展性：基于预训练模型微调，可根据不同需求进一步优化。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

评估结果

该模型在评估集上取得了以下结果：

无语言模型：
- WER：0.3110
- CER：0.072
使用基于indic-text数据集训练的5-gram语言模型：
- WER：0.17776
- CER：0.04394

训练细节

总共218703个样本中的10%（即21871个样本）用于评估。
训练在30k步后停止。
输出预测结果可在文件部分查看。

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	7.5e-05
训练批次大小	16
评估批次大小	16
梯度累积步数	4
优化器	Adam（betas=(0.9, 0.999)，epsilon=1e-08）
学习率调度器类型	线性
学习率调度器热身步数	2000
混合精度训练	Native AMP

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

注意事项

训练和评估脚本修改自https://huggingface.co/chmanoj/xls-r-300m-te 和https://github.com/huggingface/transformers/tree/master/examples/research_projects/robust-speech-event 。
由于Common Voice或LibriSpeech多语言数据集中没有孟加拉语语音数据，因此使用了OpenSLR53数据集。
使用最小音频时长0.1s过滤训练数据，可能排除了10 - 20个样本。

🔧 技术细节

本模型基于facebook/wav2vec2-xls-r-300m进行微调，在OPENSLR_SLR53 - 孟加拉语数据集上进行训练。通过调整超参数和使用特定的训练策略，模型在自动语音识别任务中取得了较好的性能。在评估过程中，分别测试了有无语言模型的情况，结果显示使用语言模型可以显著降低WER和CER。

📄 许可证

本模型使用Apache-2.0许可证。

引用

@misc {tahsin_mayeesha_2023,
	author       = { {Tahsin Mayeesha} },
	title        = { wav2vec2-bn-300m (Revision e10defc) },
	year         = 2023,
	url          = { https://huggingface.co/Tahsin-Mayeesha/wav2vec2-bn-300m },
	doi          = { 10.57967/hf/0939 },
	publisher    = { Hugging Face }
}