语言:
标签:
- 音频
- 自动语音识别
- whisper-event
- pytorch
- 印英混合语
推理: 支持
模型索引:
- 名称: Whisper-Hindi2Hinglish-Prime
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: google/fleurs
类型: google/fleurs
配置: hi_in
分割: 测试集
指标:
- 类型: 词错误率(WER)
值: 28.6806
名称: WER
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: mozilla-foundation/common_voice_20_0
类型: mozilla-foundation/common_voice_20_0
配置: 印地语
分割: 测试集
指标:
- 类型: 词错误率(WER)
值: 32.4314
名称: WER
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: Indic-Voices
类型: Indic-Voices
配置: 印地语
分割: 测试集
指标:
- 类型: 词错误率(WER)
值: 60.8224
名称: WER
演示样例:
- 音频: audios/c0637211-7384-4abc-af69-5aacf7549824_1_2629072_2656224.wav
输出文本: "我们确实在努力工作。"
- 音频: audios/c0faba11-27ba-4837-a2eb-ccd67be07f40_1_3185088_3227568.wav
输出文本: "是的,就是那个我告诉过你的。"
- 音频: audios/663eb653-d6b5-4fda-b5f2-9ef98adc0a61_0_1098400_1118688.wav
输出文本: "你们是十五个人。"
- 音频: audios/f5e0178c-354c-40c9-b3a7-687c86240a77_1_2613728_2630112.wav
输出文本: "多少岁了?"
- 音频: audios/f5e0178c-354c-40c9-b3a7-687c86240a77_1_1152496_1175488.wav
输出文本: "需要兰德自行车。"
- 音频: audios/c0637211-7384-4abc-af69-5aacf7549824_1_2417088_2444224.wav
输出文本: "是的,是的,我们看过了。"
管道标签: 自动语音识别
许可证: Apache-2.0
指标: 词错误率(WER)
基础模型: openai/whisper-large-v3
库名称: transformers
Whisper-Hindi2Hinglish-Prime模型:
目录:
核心特性:
- 印英混合语支持:新增将音频转录为口语化印英混合语的能力,减少语法错误
- Whisper架构:基于Whisper架构,便于与transformers包集成使用
- 抗噪能力:增强噪声环境下的识别鲁棒性,避免纯噪声音频的误转录
- 幻听抑制:显著降低转录过程中的幻听现象
- 性能提升:相比预训练模型,在基准测试集上平均性能提升约39%
训练过程:
数据准备:
- 数据量:使用约550小时带噪声的印度口音印地语数据进行微调
- 数据采集:由于缺乏现成的印英混合语数据集,采用特制专有数据集
- 标注流程:通过SOTA模型预标注后经人工校验优化
- 数据特性:着重采集含环境噪声的音频,适配印度本土高噪声应用场景
- 预处理:音频分段限制在30秒内,单片段最多包含2个说话人,保留原始音频质量
微调策略:
- 创新训练架构:开发定制化训练器实现高效监督微调,配备可视化回调函数
- 动态层解冻:通过预训练模型在训练子集上的推理分析,识别关键活跃层进行针对性解冻
- Deepspeed集成:采用Deepspeed加速训练过程,优化资源利用率
性能概览
定性性能分析
音频 |
Whisper Large V3原模型 |
Whisper-Hindi2Hinglish-Prime优化模型 |
音频1 |
错误转录:"maynata pura, canta maynata" |
准确转录:"我们确实在努力工作。" |
音频2 |
错误识别:"Where did they come from?" |
准确识别:"是的,就是那个我告诉过你的。" |
音频3 |
错误识别:"A Pantral Logan" |
准确识别:"你们是十五个人。" |
定量性能分析
说明:
- 下表WER分数对比本模型与原始Whisper模型在印英混合语文本生成的表现
- 实际场景性能对比请访问语音转文本竞技场
使用指南:
使用Transformers库
pip install -U transformers
import torch
from transformers import pipeline
device = "cuda:0" if torch.cuda.is_available() else "cpu"
pipe = pipeline("automatic-speech-recognition",
model="Oriserve/Whisper-Hindi2Hinglish-Prime",
device=device)
result = pipe("sample.wav")
print(result["text"])
使用Flash Attention 2加速
pip install flash-attn --no-build-isolation
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id,
attn_implementation="flash_attention_2"
)
转换为OpenAI Whisper格式
import torch
from transformers import AutoModelForSpeechSeq2Seq
model = AutoModelForSpeechSeq2Seq.from_pretrained("Oriserve/Whisper-Hindi2Hinglish-Prime")
torch.save({"model_state_dict": model.state_dict()}, "converted_model.pt")
import whisper
model = whisper.load_model("converted_model.pt")
print(model.transcribe("sample.wav")["text"])
其他信息
本模型属于Oriserve研发的Transformer系列ASR模型,更多模型对比请访问语音转文本竞技场。有关AI语音代理的咨询请联系:ai-team@oriserve.com