库名称:transformers
基础模型:kotoba-tech/kotoba-whisper-v2.0
数据集:
- litagin/Galgame_Speech_ASR_16kHz
- OOPPEENN/Galgame_Dataset
语言:
- ja
管道标签:自动语音识别
标签:
- whisper
- anime
- japanese
许可证:mit
动漫语音识别专家 🤗🎤📝
Anime Whisper 是一款专精于日式动画风格表演台词领域的日语语音识别模型。该模型基于kotoba-whisper-v2.0,通过约5,300小时373万条动画风格语音剧本数据集Galgame_Speech_ASR_16kHz进行微调训练。虽然特别针对动画表演语音领域优化,但在其他类型语音识别任务中也展现出独特优势与卓越性能。
立即体验在线演示:https://huggingface.co/spaces/litagin/anime-whisper-demo
重要提示❗
本模型与初始提示(initial prompt)兼容性较差,设置后易产生幻觉输出导致质量严重下降。请勿使用初始提示功能。
核心优势 🌟
相较同类模型,本产品具有以下典型特征:
- 幻觉现象显著减少
- 精准捕捉其他模型常忽略的言语停顿、笑声、呼喊、喘息等非语言发声
- 标点符号("。、!?…")随语音节奏情感自然生成,呈现剧本级文本流畅度
- 对动画风格表演台词识别准确率尤为突出
- 基于轻量高效的kotoba-whisper(whisper-large-v3蒸馏模型)
- 能专业处理其他模型难以胜任的NSFW音频转写
快速入门 🚀
import torch
from transformers import pipeline
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 0,
"repetition_penalty": 1.0,
}
pipe = pipeline(
"automatic-speech-recognition",
model="litagin/anime-whisper",
device="cuda",
torch_dtype=torch.float16,
chunk_length_s=30.0,
batch_size=64,
)
audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
- 批量处理时直接传入文件路径列表
- 如遇重复幻觉,可调整
no_repeat_ngram_size
(5-10)或提高repetition_penalty
(>1)参数
性能评估 📊
完整评估报告与代码详见GitHub仓库
字符错误率(CER)
- 测试数据:5部未参与训练的新作视觉小说(约7.5万条)
- 为抑制Whisper系列幻觉,设置
no_repeat_ngram_size=5
- CER值经标准化处理

详细数据
模型 |
game1 |
game2 |
game3 |
game4 |
game5 |
平均 |
whisper-large |
15.11 |
20.24 |
14.89 |
17.95 |
19.37 |
17.5 |
whisper-large-v2 |
15.11 |
20.12 |
14.83 |
17.65 |
18.59 |
17.3 |
whisper-large-v3 |
14.60 |
18.66 |
14.43 |
17.29 |
17.74 |
16.5 |
whisper-large-v3-turbo |
15.18 |
19.24 |
14.43 |
17.38 |
18.15 |
16.9 |
reazonspeech-nemo-v2 |
23.92 |
25.08 |
20.29 |
25.91 |
22.71 |
23.6 |
parakeet-tdt_ctc-0.6b-ja |
17.67 |
20.44 |
15.33 |
19.60 |
19.86 |
18.6 |
kotoba-whisper-v1.0 |
16.62 |
21.54 |
16.42 |
19.83 |
20.01 |
18.9 |
kotoba-whisper-v2.0 |
16.38 |
21.51 |
16.51 |
19.69 |
20.04 |
18.8 |
本模型 |
11.32 |
16.52 |
11.16 |
12.78 |
13.23 |
13.0 |
识别特性 🚨
- 人名等专有名词倾向采用训练数据中视觉小说的汉字表记
- 部分词汇可能呈现特殊转写形式(如"からだ"→"身体")
- 基于数据集规范化,以下特征几乎不会出现:
- 元音/长音重复:"ああああーーーー"
- 重复标点:"こらーっ!!!!"
- 连续省略号(规范日语应使用两个"……",但输出多为单个"…")
- 数字、字母、感叹号为半角
- 句末"。"通常省略
- 部分敏感词可能显示为"○"替代
对比案例 👀
以下为未参与训练的视觉小说台词转写对比(同设no_repeat_ngram_size=5
),精选展现本模型优势的典型场景(特别是非语言发声与情感表达):
标准文本 |
本模型 |
whisper-large-v3 |
kotoba-whisper-v2.0 |
reazonspeech-nemo |
あわわわっ!わわわわっ! |
はわわっ、わわわわっ…! |
ああああああああああ |
うわうわ |
うわ! |
そっ、そっか……。………。……そうなんだ。 |
そっ…そっか…そうなんだ… |
そっか…そうなんだ… |
そっか…そうなんだ |
そっそっかあっそうなんだ。 |
たぶん、ぼくが勝つ、はず |
たぶん、ボクが勝つ、はず |
多分、僕が勝つはず。 |
多分僕が勝つはず |
僕が勝つはず。 |
(因篇幅限制,此处仅展示部分案例,完整对比表包含更多情感表达、非语言发声等场景的转写对比)
NSFW案例 🫣
喘息声转写对比
标准文本 |
本模型 |
whisper-large-v3 |
kotoba-whisper-v2.0 |
reazonspeech-nemo |
ひっ、あっ!あぅっ、ああぁぁあぁぁぁぁぁっ!はっ、はっ、はっ、はっ、ひぁっ! |
んぁっ、あっ、あっ、ああぁぁっ!あっ、はぁっ、はぁっ…んっ、ふぁああっ! |
ご視聴ありがとうございました |
アハハハ |
うわ! |
(完整表格包含10组成人向内容转写对比,展现模型在特殊场景下的专业处理能力)
训练方法 📚
完整训练流程、超参数与代码即将发布于GitHub
- 保留最后1个tar文件作为测试集,使用3,735,363个文件训练
- 先冻结编码器仅训练解码器数轮
- 解冻编码器进行全模型微调
- 采用模型平均融合技术优化性能,通过Optuna以CER指标选择最佳组合
硬件环境 🖥
- 使用vast.ai平台H100 NVL显卡(96GB显存)训练约3周
- 实际有效训练时长:H100 NVL × 11.2天(后期可能存在过拟合现象)