许可证:apache-2.0
语言:日语
库名称:transformers
标签:
- 音频
- 自动语音识别
- hf-asr-leaderboard
小部件示例:
- 标题:CommonVoice 8.0(测试集)
音频源:https://huggingface.co/datasets/japanese-asr/ja_asr.common_voice_8_0/resolve/main/sample.flac
- 标题:JSUT Basic 5000
音频源:https://huggingface.co/datasets/japanese-asr/ja_asr.jsut_basic5000/resolve/main/sample.flac
- 标题:ReazonSpeech(测试集)
音频源:https://huggingface.co/datasets/japanese-asr/ja_asr.reazonspeech_test/resolve/main/sample.flac
管道标签:自动语音识别
评估指标:
模型索引:
- 名称:kotoba-tech/kotoba-whisper-v2.0
结果:
- 任务类型:自动语音识别
数据集:CommonVoice 8(日语测试集)
指标:
- 任务类型:自动语音识别
数据集:ReazonSpeech(保留测试集)
指标:
- 任务类型:自动语音识别
数据集:JSUT Basic 5000
指标:
训练数据集:
- japanese-asr/whisper_transcriptions.reazonspeech.all
- japanese-asr/whisper_transcriptions.reazonspeech.all.wer_10.0
- japanese-asr/whisper_transcriptions.reazonspeech.all.wer_10.0.vectorized
Kotoba-Whisper (v2.0)
faster-whisper权重 | whisper.cpp权重 | 带标点稳定的流水线
Kotoba-Whisper 是由Asahi Ushio与Kotoba Technologies合作开发的日语自动语音识别蒸馏模型系列。基于Robust Knowledge Distillation via Large-Scale Pseudo Labelling的蒸馏方法,我们采用OpenAI的Whisper large-v3作为教师模型,学生模型则包含教师模型的全量编码器和由首尾层初始化的两层解码器。Kotoba-Whisper在保持与large-v3相近错误率的同时,推理速度提升6.3倍。
作为kotoba-whisper-v1.0的升级版,v2.0基于ReazonSpeech的all
子集(从日本电视节目中提取的最大日语语音-文本配对数据集)训练,经WER>10%的数据过滤后,最终使用7,203,957条平均5秒音频(含18个文本标记)进行训练。模型以16kHz采样率、256批次大小训练8个周期,完整复现代码见GitHub仓库。
v2.0在ReazonSpeech保留测试集上CER/WER优于whisper-large-v3,并在JSUT basic 5000和CommonVoice 8.0日语子集等跨域测试集上表现优异(详见评估)。
关键指标对比
CER
模型 |
CommonVoice 8 |
JSUT Basic 5000 |
ReazonSpeech |
kotoba-whisper-v2.0 |
9.2 |
8.4 |
11.6 |
whisper-large-v3 |
8.5 |
7.1 |
14.9 |
WER
模型 |
CommonVoice 8 |
JSUT Basic 5000 |
ReazonSpeech |
kotoba-whisper-v2.0 |
58.8 |
63.7 |
55.6 |
whisper-large-v3 |
55.1 |
59.2 |
60.2 |
延迟
模型 |
参数量(百万) |
相对延迟 |
kotoba-whisper-v2.0 |
756 |
6.3 |
whisper-large-v3 |
1550 |
1.0 |
使用指南
短音频转录
from transformers import pipeline
transcriber = pipeline("automatic-speech-recognition", model="kotoba-tech/kotoba-whisper-v2.0")
result = transcriber("audio.mp3", generate_kwargs={"language":"ja"})
print(result["text"])
长音频处理
result = transcriber(long_audio, chunk_length_s=15, batch_size=16)
性能优化
pip install flash-attn --no-build-isolation
model_kwargs = {"attn_implementation": "flash_attention_2"}
训练与评估
训练细节见GitHub仓库。评估脚本示例:
dataset = load_dataset("japanese-asr/ja_asr.jsut_basic5000")
cer = evaluate.load("cer")
print(f"CER: {100 * cer.compute(predictions=transcriptions, references=references)}")
致谢