语言:
- 卡纳达语
许可证: apache-2.0
标签:
- whisper-event
评估指标:
- 词错误率(WER)
模型索引:
- 名称: Whisper卡纳达语微型版 - Vasista Sai Lodagala
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: google/fleurs
类型: google/fleurs
配置: kn_in
拆分: 测试集
评估指标:
- 类型: 词错误率
数值: 13.38
名称: WER
Whisper卡纳达语微型版
本模型是基于openai/whisper-tiny在多个公开可用的卡纳达语ASR语料库数据上进行微调的版本。它是作为Whisper微调冲刺活动的一部分进行训练的。
注意: 训练此模型的代码可在whisper-finetune仓库中重复使用。
使用方式
要评估此模型在整个数据集上的表现,可使用whisper-finetune仓库中提供的评估代码。
该仓库还提供了使用whisper-jax进行更快推理的脚本。
要使用此模型对单个音频文件进行推理,可使用以下代码片段:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/路径/至/音频.格式"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="automatic-speech-recognition", model="vasista22/whisper-kannada-tiny", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
为了更快地进行Whisper模型推理,可使用whisper-jax库。请按照此处的说明完成必要的安装步骤,然后使用以下代码片段:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/路径/至/音频.格式"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-kannada-tiny", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="kn", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
训练与评估数据
训练数据:
评估数据:
训练超参数
训练过程中使用了以下超参数:
- 学习率: 5e-05
- 训练批次大小: 88
- 评估批次大小: 88
- 随机种子: 22
- 优化器: adamw_bnb_8bit
- 学习率调度器类型: 线性
- 学习率预热步数: 10000
- 训练步数: 15008(在收敛时终止。初始设置为51570步)
- 混合精度训练: 启用
致谢
本工作完成于印度理工学院马德拉斯分校语音实验室。
本工作的计算资源由印度电子与信息技术部(MeitY)"Bhashini: 国家语言翻译任务"项目资助。