许可证:cc-by-nc-4.0
语言:
- bn
库名称:nemo
流水线标签:自动语音识别
标签:
- ASR
- 自动语音识别
- 孟加拉语ASR
- 孟加拉语语音识别
- bn asr
- 孟加拉语fastconformer
- https://arxiv.org/abs/2311.03196
概述
titu_stt_bn_fastconformer 是一个基于 fastconformer 的模型,训练数据来自约18K小时的 MegaBNSpeech 语料库。
论文详情:https://aclanthology.org/2023.banglalp-1.16/
使用方法
该模型可用于转录孟加拉语音频,也可作为预训练模型,通过 NeMo 框架在自定义数据集上进行微调。
安装
安装 NeMo 请参考 NeMo 文档。
pip install -q 'nemo_toolkit[asr]'
推理
下载 test_bn_fastconformer.wav
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained("hishab/titu_stt_bn_fastconformer")
audio_file = "test_bn_fastconformer.wav"
transcriptions = asr_model.transcribe([audio_file])
print(transcriptions)
推理 Colab 笔记本:Bangla FastConformer Infer.ipynb
训练数据集
频道类别 |
时长(小时) |
新闻 |
17,640.00 |
谈话节目 |
688.82 |
视频博客 |
0.02 |
犯罪节目 |
4.08 |
总计 |
18,332.92 |
训练详情
在模型训练中,我们选用的数据集包含17.64K小时的新闻频道内容、688.82小时的谈话节目、0.02小时的视频博客以及4.08小时的犯罪节目。
评估


引用
@inproceedings{nandi-etal-2023-pseudo,
title = "面向领域无关的孟加拉语自动语音识别的伪标注方法",
author = "Nandi, Rabindra Nath and
Menon, Mehadi and
Muntasir, Tareq and
Sarker, Sagor and
Muhtaseem, Quazi Sarwar and
Islam, Md. Tariqul and
Chowdhury, Shammur and
Alam, Firoj",
editor = "Alam, Firoj and
Kar, Sudipta and
Chowdhury, Shammur Absar and
Sadeque, Farig and
Amin, Ruhul",
booktitle = "第一届孟加拉语语言处理研讨会论文集(BLP-2023)",
month = dec,
year = "2023",
address = "新加坡",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2023.banglalp-1.16",
doi = "10.18653/v1/2023.banglalp-1.16",
pages = "152--162",
abstract = "开发低资源语言自动语音识别(ASR)的主要挑战之一是缺乏涵盖领域特定变化的标注数据。本研究提出了一种伪标注方法,用于构建大规模领域无关的ASR数据集。通过该方法,我们开发了一个超过20K小时的标注孟加拉语音数据集,涵盖多样主题、说话风格、方言、嘈杂环境和对话场景。随后,我们利用该语料库设计了一个基于Conformer的ASR系统,并在公开数据集上进行了基准测试,与其他可用模型进行了对比。为验证效果,我们设计并开发了一个人工标注的领域无关测试集,包含新闻、电话和对话等数据。实验结果表明,基于伪标注数据训练的模型在测试集及公开孟加拉数据集上均表现优异。实验资源将公开提供。https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR",
}