库名称:transformers
数据集:
- hhim8826/japanese-anime-speech-v2-split
语言:
- ja
基础模型:
- openai/whisper-large-v3-turbo
管道标签:自动语音识别
标签:
- 音频
- 自动语音识别
- asr
- whisper
- 日语
- 动漫
- 微调
许可证:apache-2.0
以下文档由AI生成!!!
内容由AI生成,请仔细甄别
Whisper Large V3 Turbo - 日语动漫语音
该模型基于OpenAI的Whisper Large V3 Turbo,针对日语动漫语音进行了微调的语音识别模型。特别优化了动漫中日语对话和表达方式,能更准确地转录日语动漫对话文本。
模型详情
模型描述
该模型从openai/whisper-large-v3-turbo
微调而来,专门用于识别日本动漫中的语音内容。它通过hhim8826/japanese-anime-speech-v2-split
数据集训练,能更好地处理动漫语音的特点,包括特殊的语调、语气和常见的动漫用语。
- 开发者: hhim8826
- 模型类型: 自动语音识别 (ASR)
- 语言: 日语
- 许可证: Apache 2.0
- 微调自模型: openai/whisper-large-v3-turbo
使用方法
直接使用
您可以使用以下代码直接使用该模型进行日语动漫语音转录:
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", model="hhim8826/whisper-large-v3-turbo-ja")
result = asr("path/to/anime_audio.wav")
print(result["text"])
更详细的用法示例:
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
import torch
import librosa
processor = AutoProcessor.from_pretrained("hhim8826/whisper-large-v3-turbo-ja")
model = AutoModelForSpeechSeq2Seq.from_pretrained("hhim8826/whisper-large-v3-turbo-ja").to("cuda")
audio_file = 'anime_audio.wav'
audio_array, sampling_rate = librosa.load(audio_file, sr=16000)
inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt").to("cuda")
with torch.no_grad():
generated_ids = model.generate(inputs=inputs.input_features)
transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)
下游应用
该模型适用于:
- 动漫视频的自动字幕生成
- 动漫语音内容分析
- 日语动漫对话研究
- 日语动漫翻译辅助工具
训练详情
训练数据
该模型使用hhim8826/japanese-anime-speech-v2-split
数据集进行训练,该数据集包含来自各种日本动漫的语音片段及其对应的文本转录。
训练过程
模型从openai/whisper-large-v3-turbo
开始,经过微调以适应动漫语音的特点。训练在适当的迭代次数后停止,避免过拟合。
训练超参数
- 学习率: 1e-5
- 训练批次大小: 16
- 训练步数: 4000
评估结果
在动漫语音测试集上,该模型相较于原始Whisper模型在以下方面有所改进:
- 更好地处理动漫专有名词和特殊用语
- 对背景音乐/音效干扰下的对话识别能力提升
- 更准确地处理动漫角色特有的语调和说话方式
局限性
- 主要针对日语动漫优化,对其他类型的日语内容可能效果不如专门模型
- 可能对某些非常小众或特殊的动漫词汇识别不足
- 对极端快速或含糊的对话可能仍有识别困难