anime-whisper开源日语语音识别模型 - 精准识别日式动画表演台词

首页

Anime Whisper

由 litagin 开发

专精于日式动画风格表演台词领域的日语语音识别模型

语音识别

Transformers

日语开源协议:MIT #动漫语音识别 #非语言发声捕捉 #剧本级转写

下载量 4,873

发布时间 : 11/10/2024

模型简介

基于kotoba-whisper-v2.0微调，针对动画风格语音优化的日语ASR模型，特别擅长处理非语言发声和情感表达

模型特点

减少幻觉现象

相比同类模型显著减少了错误生成内容的情况

非语言发声识别

精准捕捉言语停顿、笑声、呼喊、喘息等非语言发声

情感化标点生成

标点符号随语音节奏情感自然生成，呈现剧本级文本流畅度

动画语音优化

对动画风格表演台词识别准确率尤为突出

NSFW内容处理

能专业处理其他模型难以胜任的成人向音频转写

模型能力

日语语音识别

动画风格语音转写

非语言发声识别

情感化文本生成

使用案例

动漫制作

动画配音转写

将动画配音转换为剧本格式文本

准确率比通用模型提高约20%

游戏开发

视觉小说台词转录

自动转录Galgame游戏中的对话内容

CER(字符错误率)平均13.0%

🚀 Anime Whisper 🤗🎤📝

Anime Whisper 是一款专门针对日语动漫风格演技台词领域的日语语音识别模型。该模型以 kotoba-whisper-v2.0 为基础模型，并使用约 5300 小时、373 万个文件的动漫风格语音及剧本数据集 Galgame_Speech_ASR_16kHz 进行了微调。它不仅在动漫演技语音领域表现出色，在其他语音识别任务中也具备独特的特征和较高的性能。

你可以在这里轻松体验该模型的演示：https://huggingface.co/spaces/litagin/anime-whisper-demo

🚀 快速开始

Anime Whisper 是一款专注于日语动漫语音识别的模型，它基于特定的基础模型并经过大量动漫语音数据的微调。以下是使用该模型的基本步骤和示例代码。

基础用法

import torch
from transformers import pipeline

generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 0,
    "repetition_penalty": 1.0,
}
pipe = pipeline(
    "automatic-speech-recognition",
    model="litagin/anime-whisper",
    device="cuda",
    torch_dtype=torch.float16,
    chunk_length_s=30.0,
    batch_size=64,
)

audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

高级用法

若要对多个文件进行一次性推理，只需将文件路径列表传递给 pipe 即可。
若重复幻觉现象较为明显，可以将上述的 no_repeat_ngram_size: int 设置为 5 - 10 左右，或者将 repetition_penalty 设置为大于 1 的值，以抑制该现象。

# 多个文件推理示例
audio_paths = ["test1.wav", "test2.wav", "test3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for result in results:
    print(result["text"])

# 抑制重复幻觉示例
generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 5,
    "repetition_penalty": 1.2,
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

✨ 主要特性

低幻觉率：相比其他模型，Anime Whisper 在语音识别过程中产生的幻觉较少，输出结果更加准确可靠。
忠实记录非语言表达：能够忠实地转录其他模型容易跳过的语气词、笑声、叫声和呼吸声等非语言表达，使转录结果更加完整。
标点使用恰当：能够根据语音的节奏和情感，恰当地添加「。、!?…」等标点符号，输出自然流畅、符合语境的台词文本。
动漫风格语音识别精度高：尤其擅长处理动漫风格的演技台词，在该领域具有较高的识别精度。
轻量级与高效性：基于 kotoba-whisper（whisper-large-v3 的蒸馏模型）构建，模型轻量且运行速度快。
NSFW 语音识别能力：能够以规范的文体转录其他模型几乎无法处理的 NSFW 语音。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import pipeline

generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 0,
    "repetition_penalty": 1.0,
}
pipe = pipeline(
    "automatic-speech-recognition",
    model="litagin/anime-whisper",
    device="cuda",
    torch_dtype=torch.float16,
    chunk_length_s=30.0,
    batch_size=64,
)

audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

高级用法

多个文件推理：

audio_paths = ["audio1.wav", "audio2.wav", "audio3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for res in results:
    print(res["text"])

抑制重复幻觉：

generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 7,
    "repetition_penalty": 1.3
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

📚 详细文档

评估 📊

详细的评估与观察报告以及评估代码将在GitHub 仓库公开。

CER (Character Error Rate, 字符错误率)

评估数据：使用「与训练数据属于相同动漫风格台词领域，但未包含在训练数据中的个人拥有的 5 部文字冒险游戏（总计约 75k 个文件）」进行评估。
生成参数：为抑制 OpenAI 的 Whisper 系列模型的重复幻觉，使用 no_repeat_ngram_size=5 参数进行生成。
CER 计算：CER 是对经过适当归一化处理后的结果进行计算得出的。

figs/cer_ngram5.png

表格

模型名称	game1	game2	game3	game4	game5	平均值
openai/whisper-large	15.11	20.24	14.89	17.95	19.37	17.5
openai/whisper-large-v2	15.11	20.12	14.83	17.65	18.59	17.3
openai/whisper-large-v3	14.60	18.66	14.43	17.29	17.74	16.5
openai/whisper-large-v3-turbo	15.18	19.24	14.43	17.38	18.15	16.9
reazon-research/reazonspeech-nemo-v2	23.92	25.08	20.29	25.91	22.71	23.6
nvidia/parakeet-tdt_ctc-0.6b-ja	17.67	20.44	15.33	19.60	19.86	18.6
kotoba-tech/kotoba-whisper-v1.0	16.62	21.54	16.42	19.83	20.01	18.9
kotoba-tech/kotoba-whisper-v2.0	16.38	21.51	16.51	19.69	20.04	18.8
Anime Whisper	11.32	16.52	11.16	12.78	13.23	13.0

偏差等 🚨

专有名词转录：当人名等专有名词存在于训练数据的视觉小说中时，通常会以该游戏内的汉字形式进行转录。
特定单词转录：数据集中的部分特定单词可能会出现与常规不同的转录形式（例如：からだ → 身体 等，以及其他专有名词）。
输出规范：由于数据集的归一化处理，以下情况在输出结果中几乎不会出现：
- 元音或长音符的连续：ああああーーーー
- 相同感叹号的连续：こらーっ!!!! なにそれ!?!?!?!?
- 省略号的连续：…… （日语书写中使用 2 个 …… 是正确的，但输出结果几乎总是只使用 1 个 …）
字符格式：数字、字母和感叹号将以半角形式进行转录。
句末标点：句末的「。」几乎总是会被省略。
低俗用语处理：部分低俗用语的转录可能会包含伏字「○」。

示例 👀

以下是与上述评估相同的、未包含在训练数据中的文字冒险游戏台词的转录对比（同样使用 no_repeat_ngram_size=5 进行生成）。

结果显示，Anime Whisper 大致能达到与 whisper-large-v3 相当的良好性能。以下仅摘录了一些与其他模型差异显著的示例（特别是非语言表达或情感丰富的语音）。

正确文本	Anime Whisper	whisper-large-v3	kotoba-whisper-v2.0	reazonspeech-nemo
あわわわっ！わわわわっ！	はわわっ、わわわわっ…!	ああああああああああ	うわうわ	うわ!
そっ、そっか……。………。……そうなんだ。	そっ…そっか…そうなんだ…	そっか…そうなんだ…	そっか…そうなんだ	そっそっかあっそうなんだ。
たぶん、ぼくが勝つ、はず	たぶん、ボクが勝つ、はず	多分、僕が勝つはず。	多分僕が勝つはず	僕が勝つはず。
げ、げほっ……なんだこいつ！	げほっ、げほっ…なんだ、こいつ…	なんだ、こいつ…	なんだこいつ	フッ何だこいつ。
はっ、はい。そうです。……その、えっと。へっ、変だったでしょうか？	は、はい、そうです…その、えと…へ、変だったでしょうか…?	あ、はい、そうです。そ、えっと、へ、変だったでしょうか。	はいそうですそういと変だったでしょうか	あっはいそうですうすえっとへ変だったでしょうか?
ぶぶぶぶ豚クソがァァァ！待てコルァァァ！	ぶぶぶぶぶ、ぶたくそがー!待てごらぁぁ!	待てこらー	待てこそか	待てこら!
地面が揺れるとかありえ……ぎゃっ！	地面が揺れるとかありえ…ひゃっ!?	地面が揺れるとかありえ?	地面が揺れるとかありえ	やっ!
きゃっほう！い、いたっ、いただきまーす！	きゃっほう!い、いた、いただきまーす!	キャッホー!い、いただきます!	キャホー!いただきます!	いいたいただきます!
……っ、はぁ……わ、わたし、今日は……	んっ、はぁ…わ、私、今日は…	私、今日は…	私今日は	えっと私今日。
……ぷふっ、ンッ。かっ、かっ、かっ……ぷふっ。かっ。んふふっ。かっ、価値観	うふふっ…か、かはっ…ぷっ…はぁっ…か、価値観っ…	価値観!	価値観	ハッかちかん!
か、痒くもねぇ……こんなんんん……！	か、痒くもねえ…こんな、んんっ…!	か、回復もねぇ、こんな、うぬぅ	かかゆくもねえこんな	かゆくもねえこんなうう。
ひゃっ！や、やだ、くすぐった……や、やっ、あは、あははっ	ひゃうっ!やっ、やだっ…くすぐったっ…やっ、やっ、はんっ、あははっ!	やだ!すぐだ!	やだ	やっほ!
ふえぇ、急に止まらないでよう……	ふえぇ、急に止まらないでよぉ	おへぇ、急に止まらないでよ	おへえ急に止まらないでよ	急に止まらないでよ。
ごごご５０キロもないです私ー！	ごごご50キロもないです私ー!	50キロもないです私!	550キロもないです私	50キロもないですわたし!
いいい、すびばぜん、すびばぜーんっ	いいずびばぜんずびばぜーん!	いいいい! ズビバル10! ズビブル10!	いいズビバーテン!	すみませんすみません。
間抜けか貴様ァァァ！	間抜けか貴様ぁぁっ!	マヌケカキ様!	まぬけかきさま	抜けか貴様!
ぷ、くく……ひっ、ひいっ……	くっ…くくくっ…ぷっ…くくっ…	ご視聴ありがとうございました	フッ	フフフフ。フフフフフ。
キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな	君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ…	君は……最初から容赦がないな	君は最初からあんあ容赦がないな	君は最初からうっうん容赦がないなあ。
望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ	望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ	望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く…	望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く	ん?望んでるんです。世界が終わればいいって強く強く。

NSFW 示例 🫣

由于包含成人内容，请谨慎浏览。

喘息声

正确文本	Anime Whisper	whisper-large-v3	kotoba-whisper-v2.0	reazonspeech-nemo
ひっ、あっ！あぅっ、ああぁぁあぁぁぁぁぁっ！はっ、はっ、はっ、はっ、ひぁっ！	んぁっ、あっ、あっ、ああぁぁっ!あっ、はぁっ、はぁっ…んっ、ふぁああっ!	ご視聴ありがとうございました	アハハハ	うわ!
ち、ちがっ……んっ、あぁぁ……気持ちいい、わけが……あぁっ、やぁっ、待てと……んんっ、はぁ……あふぅっ……	ち、ちがっ…はぁっ、はぁっ、気持ちいい、わけがっ…あっ、やぁっ、待てとっ…んくっ、はぁ、はぁっ…	ち、ちが…気持ちいいわけが…待てと…	ちちが気持ちいいわけが待てと	ち違うはあ気持ちいいわけが待てとあっ。
あんっ！あっ、あっ……そっ、それ……あっ、はぁはぁはぁ。ンンンンッ！ぴっ、ぴりぴり、ってして……。あんっ！はぁはぁはぁ、きっ、きもち……いいです！	ふぁんっ!あっ、あぁっ!そっ、それっ…あっ、はぁっ、はぁっ…んんっ!ぴ、ぴりぴりって、して…ひぁっ!はっ、はぁ、はぁっ…!き、気持ち、いいですっ…!	それ…フィリフィリでした…気持ちいいです…	それフィリフィリフリでした	けきもしいいです!
その調子って……んんっ、こんなの、あぁっ、んっあぁん……んんっ、しょっ……あぁっ……だめ……んっ、あぁっ……	その調子って…んんっ、こんなの…はぁっ、んんっ…んっ、しょっ…はぁっ…ダメ…んっ、あっ…	その調子って…こんなの…ダメ…	その調子ってこんなの	その調子ってううんこんなのダメうん
はぁっ、あっ……んっ……くぅ、あぁっ……やぁ……それは、ん、はぁ……だめ、だ……あっ、んんっ、ふ……ひぃうっ！やめっ……ま、待ってくれ……あぁん……！	はぁっ、あっ、くぅぅっ…あっ、やっ、それはっ…はぁっ、ダメだっ…んんっ…ひぅぅんっ!やめっ…ま、待ってくれっ…あぁぁっ!	それは、ダメだ、やめ、待ってくれ	それはそれはダメだやめやめまってくれ	やめま待ってくれうう。
あは、はっ……んっ、くうっ……なん、だろこれ……気持ちいい、かも……んっ、あ、ああっ、はあっ、ふあぁ……やっ、くぅん	はぁっ、はぁっ、んっ…くぅっ…なん、だろこれ…気持ちいい、かも…んんっ、あっ、ああっ…ふぁぁっ、はやっ…んんっ…	あ、あ、あ、んっ、う、なんだろこれ、気持ちいいかも、あ、あ,あ、あ、う、うんっ	なんだろうこれ気持ちいいくも	うっなんだろうこれ。はあ気持ちいいかも。うわ!ううん。
だめ、センパイ……そんなにおち○ちん挿れたら、だめだぁっ……あっ、あぁぁぁっ……！	だめ、先輩…んっ、そんなに、おち○ちん挿れたら、だめ…はぁ、あぁぁ…っ	ダメ、先輩…そんなに陥れたらダメ…	ダメ先輩そんなに落ち入れたらダメな	ダメ先輩そんなに気入れたらダメだ。
やぁぁっ、こ、こらっ、おち○ちん、そんなに、びくびくさせないのっ……あぁっ、ひぃあぁぁっ……はぁっ、あぁっ、あぁぁぁんっ！！	ひゃんっ!こ、こらっ、おち○ちん、そんなにビクビクさせないのっ!ひぁっ、あっ、はぁっ、はぁっ!	いや、こ、こら、おじっちそんなにビクビクさせないの?いや、なにやろ	ここらじっちそんなにビクビクさせないの	もう全然そんなにビクビクさせないのうん!
やっ……あっ。……お兄ちゃんの舌が、あっ、中で、やあっ。……そんなりぐりぐりしちゃ、あっ、ふあっ。うくぅぅっ、ああっ、やあっ。	やっ、あっ、お兄ちゃんの舌が、中で…やぁっ、そんなにぐりぐりしちゃ…あっ、あっ、んっ、ふあぁっ、やぁぁっ…!	にゃー!お兄ちゃんの舌がお腹で…にゃー!そんなにグリグリした…にゃー!!	お兄ちゃんの下がお腹でニャーそんなにグリグリした	お兄ちゃんの舌がおなかでよそんなにグイグイさあぐっにゃん!
はっ、激しく……して。ンッ。あっ！はあっ、はあっ……わっ、私を……一気に……ンッ。イッ、イかせちゃってくださいッ！	は、激しく、して…んっ、あぅっ…私を、一気に…い、イかせちゃってください…!	あ、ゲンシ君、ステッ、アッ、アッ…私を一気に、行かせてあげください!	あげんしくして私は一気に行かせてください	激しく私も一輝行かせちゃってください!

吮吸声

正确文本	Anime Whisper	whisper-large-v3	kotoba-whisper-v2.0	reazonspeech-nemo
れろっ、んっ……れろ、ちゅ、んちゅ	れろっ、れろっ、ちゅううっ	ううううう	わいしゅう	シュッ!
はっ、はい！んっ、れろっ、れろっ……あっ、れろっ	は、はい…っ、れろぉ…っ、れりゅっ、れりょっ…	わ、はぁい、わ、う、う、わ、へ、へ、へ	わあはい	はい。
れろっ、れろ……むふふ、ここの線なぞると反応いいね、んちゅ、ちゅうっ……ここいい？どう？	れろれろれろっ…んっ、ふふっ、ここの線なぞると反応いいね…ちゅっ、ちゅっ…ここいい?どう?	ここの線なぞると反応いいねここいい?どう?	ここの線なぞると反応いいねうんふうに	へへへここの線なぞると反応いいねここいい?どう?
あぁむ……ちゅ……れぇろれろ……ん……ん……ちゅ……れぇろ……んん……ちゅぅ……ちゅぱっ……れぇろれろ……	あむちゅっ…れろれろっ…んちゅっ、れろっ…ちゅぱちゅぷっ…れろぉっ…	アムー…	あん	おへん。
んちゅっ……れろれろ……れぇろ、ちゅっ、んれぇろれろ……ちゅっ、ちゅぱっ……	んちゅっ、れろれろっ、ちゅぱちゅぅっ…れろれろ、ちゅっ…ちゅぷっ…	お疲れ様でした	おくぬかんぱい	う。
ん……イク……ちゅるぅ……イッちゃう……ん……あぁっ、ちゅるるっ、イク……もう……らめぇ……んあぁむ……イク……イクぅぅ……	もう、イクっ…イッちゃう…んっ、んっ、じゅるるっ、イクっ、らめっ…んぁっ、イクッ、イクッ!	おーまいごーおまいごーまいごやめまいごよこー	お前	ママペイ君!
れぇろ…………んちゅ……れろれろ……ん……ちゅ……れろれろ……んれぇろれろ……ちゅ……	れろぉ…んちゅ、れろれろ…ちゅぱ…れろ、れろれちゅ…	エル…ラ…ル…ア…エル…ル…ツ…ン…エ…エル…ツ…ル…ア...エル…ル...プ…	えぇぇ
はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい	じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ!	早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!!	早く大きくしてチンポン早くポッキ全部全部私にちょうだい	早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい!
そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ！ああああっ！あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。	そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ	それじゃあ、頑張るぞ!	それじゃあ頑張るぞ	そそれじゃあううがんばるぞ。
はむ、ちゅ、んんっ、れる……。んむっ、ふーっ、ふーっ。ここなんへ、ろうかひら？ちゅっ……じゅっ。……じゅるる。んっ、。	はむ…ちゅ、んんっ…ん、はむ…ここなんへ、どうかしら…ちゅっ、ちゅるるっ…	ここな…廊下平…	ここな廊下平	ん。ん?ここな?どうかしら。んっ。

学习步骤 📚

详细的学习步骤、超参数和学习代码将在GitHub上公开。

数据划分：将全部数据中的最后一个 tar 文件留作测试数据，使用其余 3,735,363 个文件进行训练。
模型训练：
1. 首先，从基础模型开始，冻结编码器（Encoder），仅对解码器（Decoder）进行几个 epoch 的训练。
2. 然后，解除编码器的冻结，对整个模型进行几个 epoch 的训练。
模型优化：训练停止后，尝试通过「取某个时间点到另一个时间点之间的模型平均值（合并）」的操作来提高性能。使用 Optuna 对基准数据的 CER 进行优化，并将优化结果作为最终模型。

环境 🖥

硬件资源：自掏腰包在 vast.ai 上租用了 H100 NVL（VRAM 96GB），经过近 3 周的反复试验进行训练（最初使用 whisper-large-v3-turbo 作为基础模型，因此训练时间包含了这部分尝试）。
实际训练时间：该模型实际使用的训练时间约为 H100 NVL * 11.2 天（不过，后半段训练可能由于过拟合导致在测试数据上的性能不佳，因此最终合并时未使用这部分模型）。