许可证: mit
数据集:
- benax-rw/my_kinyarwanda_dataset
语言:
- rw
评估指标:
- wer
基础模型: openai/whisper-small
任务标签: 自动语音识别
库名称: transformers
标签:
- 卢旺达语
- 语音识别
- whisper模型
- 低资源语言
- 微调
- benax科技
- transformers库
- torchaudio
- 语音转文字
模型索引:
- 名称: KinyaWhisper
成果:
- 任务:
名称: 自动语音识别
类型: 自动语音识别
数据集:
名称: KinyaWhisper定制数据集
类型: 自定义
配置: 卢旺达语
评估指标:
- 名称: 词错误率(WER)
类型: wer
值: 51.85
🗣️ KinyaWhisper
KinyaWhisper是基于OpenAI Whisper模型微调的卢旺达语自动语音识别(ASR)系统。该模型在102个手工标注的.wav音频文件上训练完成,为低资源土著语言的语音识别提供了可复现的基准模型。
🔧 使用方法
使用微调后的KinyaWhisper模型进行音频推理:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
model = WhisperForConditionalGeneration.from_pretrained("benax-rw/KinyaWhisper")
processor = WhisperProcessor.from_pretrained("benax-rw/KinyaWhisper")
waveform, sample_rate = torchaudio.load("your_audio.wav")
inputs = processor(waveform.squeeze(), sampling_rate=sample_rate, return_tensors="pt")
predicted_ids = model.generate(inputs["input_features"])
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("🗣️ 识别结果:", transcription)
🏋️ 训练详情
• 基础模型: openai/whisper-small
• 训练轮次: 80
• 批处理大小: 4
• 学习率: 1e-5
• 优化器: Adam
• 最终损失值: 0.00024
• 词错误率: 51.85%
⚠️ 局限性
模型训练数据量较小(仅102个样本),在清晰简短的卢旺达语片段上表现最佳,对较长或含噪音频识别效果可能欠佳。此为早期教育用途模型,暂不适合生产环境。
📚 引用规范
若使用本模型,请引用:
@misc{baziramwabo2025kinyawhisper,
作者 = {Gabriel Baziramwabo},
标题 = {KinyaWhisper: 面向卢旺达语语音识别的Whisper微调模型},
年份 = {2025},
发布机构 = {Hugging Face},
获取方式 = {\url{https://huggingface.co/benax-rw/KinyaWhisper}},
备注 = {版本1.0}
}
📬 联系方式
由Gabriel Baziramwabo维护
✉️ gabriel@benax.rw
🔗 https://benax.rw