Visual-novel-transcriptor开源日语音频转写模型，专为视觉小说场景优化！

首页

Visual Novel Transcriptor

由 spow12 开发

基于distil-whisper/distil-large-v2微调的日语语音识别模型，专为日语音频转写设计，特别针对视觉小说场景优化

语音识别

Transformers

支持多种语言#日语音频转写 #视觉小说优化 #动漫内容识别

下载量 31

发布时间 : 4/15/2024

模型简介

这是一个自动语音识别(ASR)模型，主要用于将日语语音转换为文本，特别适合处理视觉小说中的对话内容

模型特点

视觉小说场景优化

专门针对视觉小说中的对话内容进行优化，能够更好地处理这类音频

日语识别能力

专注于日语语音识别，在日语环境下表现更佳

轻量级模型

基于distil-whisper的轻量级版本，在保持性能的同时减少计算资源需求

模型能力

日语语音转文本

英语语音转文本

视觉小说对话识别

使用案例

动漫相关应用

视觉小说转录

将视觉小说中的日语对话转换为文本

生成可编辑的对话文本

动漫语音识别

识别动漫中的日语对话内容

生成字幕或脚本

🚀 视觉小说转录器模型

这是一个经过微调的自动语音识别（ASR）模型，专门用于转录日语音频，尤其适用于视觉小说领域。它基于distil-whisper/distil-large-v2模型进行微调，为相关领域的音频转录提供了高效准确的解决方案。

🚀 快速开始

模型使用示例

from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
import librosa

processor = AutoProcessor.from_pretrained('spow12/Visual-novel-transcriptor', language="ja", task="transcribe")
model = AutoModelForSpeechSeq2Seq.from_pretrained('spow12/Visual-novel-transcriptor').cuda()
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="ja", task="transcribe")

data, _ = librosa.load(wav_path, sr=16000)
input_features = processor(data, sampling_rate=16000, return_tensors="pt").input_features.cuda()
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])

✨ 主要特性

针对性微调：针对日语音频尤其是视觉小说音频进行了微调，提高了转录的准确性。
多语言支持：支持日语和英语。
多模型集合：与TTS、Chat等模型共同构成WaifuModel集合，提供更全面的功能。

📚 详细文档

模型详情

模型描述

这是一个🤗 Transformers模型的模型卡片，已被推送到Hugging Face Hub，此模型卡片是自动生成的。

属性	详情
开发者	spow12(yw_nam)
共享者	spow12(yw_nam)
模型类型	Seq2Seq
支持语言（NLP）	日语
微调基础模型	distil-whisper/distil-large-v2

模型相关链接

WaifuModel集合

统一演示

WaifuAssitant

模型使用与版权

此模型目前仅可用于非商业用途。由于开发者对许可细节了解有限，希望使用者能负责任地使用该模型。开发者分享此模型，旨在为开源社区和动漫爱好者的研究工作做出贡献。

引用信息

@misc {Visual-novel-transcriptor,
    author       = { YoungWoo Nam },
    title        = { Visual-novel-transcriptor },
    year         = 2024,
    url          = { https://huggingface.co/spow12/Visual-novel-transcriptor },
    publisher    = { Hugging Face }
}