V

Visual Novel Transcriptor

由 spow12 开发
基于distil-whisper/distil-large-v2微调的日语语音识别模型,专为日语音频转写设计,特别针对视觉小说场景优化
下载量 31
发布时间 : 4/15/2024
模型介绍
内容详情
替代品

模型简介

这是一个自动语音识别(ASR)模型,主要用于将日语语音转换为文本,特别适合处理视觉小说中的对话内容

模型特点

视觉小说场景优化
专门针对视觉小说中的对话内容进行优化,能够更好地处理这类音频
日语识别能力
专注于日语语音识别,在日语环境下表现更佳
轻量级模型
基于distil-whisper的轻量级版本,在保持性能的同时减少计算资源需求

模型能力

日语语音转文本
英语语音转文本
视觉小说对话识别

使用案例

动漫相关应用
视觉小说转录
将视觉小说中的日语对话转换为文本
生成可编辑的对话文本
动漫语音识别
识别动漫中的日语对话内容
生成字幕或脚本