J

Japanese Wav2vec2 Large Rs35kh

由 reazon-research 开发
基于wav2vec 2.0 Large架构,在大型日语ASR语料库ReazonSpeech v2.0上微调而成的日语自动语音识别模型
下载量 244
发布时间 : 11/29/2024
模型介绍
内容详情
替代品

模型简介

这是一个高性能的日语自动语音识别(ASR)模型,专门针对日语语音识别任务进行了优化,具有较低的字符错误率和良好的长语音识别能力。

模型特点

高性能日语识别
在多个测试集上表现出色,平均字符错误率(CER)仅为16.25%
长语音处理能力
特别优化了长语音识别性能,在JSUT-BOOK测试集上CER仅为30.98%
基于大规模数据集训练
在ReazonSpeech v2.0大型日语ASR语料库上微调
支持bfloat16和Flash Attention
支持bfloat16数据类型和Flash Attention 2优化,提高推理效率

模型能力

日语语音识别
长语音处理
实时语音转文字

使用案例

语音转文字
日语会议记录
将日语会议录音自动转换为文字记录
平均字符错误率16.25%
日语播客转录
将日语播客内容转录为文字
长语音识别CER 30.98%
语音助手
日语语音指令识别
用于日语语音助手或智能设备的语音指令识别