语言:
- 泰米尔语
许可证: apache-2.0
标签:
- whisper-event
评估指标:
- 词错误率(WER)
模型索引:
- 名称: Whisper泰米尔语小模型 - Vasista Sai Lodagala
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: google/fleurs
类型: google/fleurs
配置: ta_in
拆分: 测试集
评估指标:
- 类型: 词错误率(WER)
值: 9.11
名称: WER
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: mozilla-foundation/common_voice_11_0
类型: mozilla-foundation/common_voice_11_0
配置: 泰米尔语
拆分: 测试集
评估指标:
- 类型: 词错误率(WER)
值: 7.95
名称: WER
Whisper泰米尔语小模型
本模型是基于openai/whisper-small在多个公开泰米尔语ASR语料库上微调的版本,属于Whisper微调冲刺计划的一部分。
注意: 训练代码已开源在whisper-finetune仓库。
使用方式
评估整个数据集时,可使用上述仓库中的评估代码。该仓库还提供基于whisper-jax的加速推理脚本。
单音频文件推理示例:
>>> import torch
>>> from transformers import pipeline
>>>
>>> audio = "/路径/至/音频文件.format"
>>> device = "cuda:0" if torch.cuda.is_available() else "cpu"
>>> transcribe = pipeline(task="自动语音识别", model="vasista22/whisper-tamil-small", chunk_length_s=30, device=device)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
使用whisper-jax加速推理需先完成环境配置:
>>> import jax.numpy as jnp
>>> from whisper_jax import FlaxWhisperForConditionalGeneration, FlaxWhisperPipline
>>>
>>> audio = "/路径/至/音频文件.format"
>>> transcribe = FlaxWhisperPipline("vasista22/whisper-tamil-small", batch_size=16)
>>> transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="ta", task="transcribe")
>>> print('转录结果: ', transcribe(audio)["text"])
训练与评估数据
训练数据:
- IISc-MILE泰米尔语ASR语料库
- ULCA ASR语料库
- Shrutilipi ASR语料库
- 微软语音语料库(印度语言版)
- Google/Fleurs训练集+开发集
- Babel ASR语料库
评估数据:
- 微软语音语料库测试集
- Google/Fleurs测试集
- IISc-MILE测试集
- Babel测试集
训练超参数
关键训练参数:
- 学习率: 1.7e-05
- 训练批大小: 48
- 评估批大小: 32
- 随机种子: 22
- 优化器: adamw_bnb_8bit
- 学习率调度: 线性预热
- 预热步数: 17500
- 总训练步数: 29659(原计划84740步)
- 混合精度训练: 开启
致谢
本工作由印度理工学院马德拉斯分校语音实验室完成,计算资源由印度电子信息技术部(MeitY)"Bhashini国家语言翻译任务"项目资助。