语言:
- 印地语
许可证: apache-2.0
标签:
- whisper-event
评估指标:
- 词错误率(WER)
模型索引:
- 名称: Whisper印地语小模型 - Vasista Sai Lodagala
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: google/fleurs
类型: google/fleurs
配置: hi_in
拆分: 测试集
评估指标:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: mozilla-foundation/common_voice_11_0
类型: mozilla-foundation/common_voice_11_0
配置: hi
拆分: 测试集
评估指标:
- 类型: 词错误率
值: 14.12
名称: WER
Whisper印地语小模型
本模型是基于openai/whisper-small在多个公开ASR语料库的印地语数据上微调的版本,属于Whisper微调冲刺计划的一部分。
注意: 训练代码已开源至whisper-finetune仓库。
使用方式
评估整个数据集时,可使用whisper-finetune仓库的评估代码。该仓库还提供基于whisper-jax的快速推理脚本。
单音频文件推理代码示例:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/path/to/audio.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-hindi-small", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
使用whisper-jax加速推理:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/path/to/audio.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-hindi-small", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
训练与评估数据
训练数据:
- GramVaani ASR语料库
- ULCA ASR语料库(239.876小时标注数据)
- Shrutilipi ASR语料库
- Google/Fleurs训练集+开发集
评估数据:
- GramVaani测试集
- Google/Fleurs测试集
训练超参数
关键配置:
- 学习率: 1.75e-05
- 训练批次: 48
- 评估批次: 32
- 随机种子: 22
- 优化器: adamw_bnb_8bit
- 学习率调度: 线性预热(20000步)
- 总训练步数: 19377(原计划129180步)
- 混合精度训练: 启用
致谢
本工作由印度理工学院马德拉斯分校语音实验室完成,计算资源由印度电子信息技术部(MeitY)"Bhashini国家语言翻译任务"项目资助。