japanese-wav2vec2-large-rs35kh开源日语自动语音识别模型

首页

Japanese Wav2vec2 Large Rs35kh

由 reazon-research 开发

基于wav2vec 2.0 Large架构，在大型日语ASR语料库ReazonSpeech v2.0上微调而成的日语自动语音识别模型

语音识别

Transformers

日语开源协议:Apache-2.0 #日语语音识别 #大模型微调 #低字符错误率

下载量 244

发布时间 : 11/29/2024

模型简介

这是一个高性能的日语自动语音识别(ASR)模型，专门针对日语语音识别任务进行了优化，具有较低的字符错误率和良好的长语音识别能力。

模型特点

高性能日语识别

在多个测试集上表现出色，平均字符错误率(CER)仅为16.25%

长语音处理能力

特别优化了长语音识别性能，在JSUT-BOOK测试集上CER仅为30.98%

基于大规模数据集训练

在ReazonSpeech v2.0大型日语ASR语料库上微调

支持bfloat16和Flash Attention

支持bfloat16数据类型和Flash Attention 2优化，提高推理效率

模型能力

日语语音识别

长语音处理

实时语音转文字

使用案例

语音转文字

日语会议记录

将日语会议录音自动转换为文字记录

平均字符错误率16.25%

日语播客转录

将日语播客内容转录为文字

长语音识别CER 30.98%

语音助手

日语语音指令识别

用于日语语音助手或智能设备的语音指令识别

🚀 `japanese-wav2vec2-large-rs35kh`

本模型是在大规模日语自动语音识别（ASR）语料库 ReazonSpeech v2.0 上对 wav2vec 2.0 Large 进行微调得到的。它能够有效提升日语语音识别的准确性和性能，为相关语音处理任务提供强大支持。

🚀 快速开始

✨ 主要特性

基于大规模日语 ASR 语料库微调，对日语语音识别有更好的效果。
可通过 transformers 库方便地调用。

📦 安装指南

文档未提及安装步骤，可参考 transformers 库的官方安装文档进行安装。

💻 使用示例

基础用法

import librosa
import numpy as np
from transformers import AutoProcessor, Wav2Vec2ForCTC

model = Wav2Vec2ForCTC.from_pretrained(
    "reazon-research/japanese-wav2vec2-large-rs35kh",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
).to("cuda")
processor = AutoProcessor.from_pretrained("reazon-research/japanese-wav2vec2-large-rs35kh")

audio, _ = librosa.load(audio_filepath, sr=16_000)
audio = np.pad(audio, pad_width=int(0.5 * 16_000))  # Recommend to pad audio before inference
input_values = processor(
    audio,
    return_tensors="pt",
    sampling_rate=16_000
).input_values.to("cuda").to(torch.bfloat16)

with torch.inference_mode():
    logits = model(input_values).logits.cpu()
predicted_ids = torch.argmax(logits, dim=-1)[0]
transcription = processor.decode(predicted_ids, skip_special_tokens=True)

📚 详细文档

测试结果

我们报告了本模型和其他 wav2vec2 系列模型的字符错误率（CER）。

短语音测试结果

模型	参数数量	平均 CER	JSUT - BASIC5000 CER	Common Voice CER	TEDxJP - 10K CER
reazon - research/japanese - wav2vec2 - large - rs35kh	319M	16.25%	11.00%	18.23%	19.53%
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	20.40%	13.22%	23.76%	24.23%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	24.23%	13.83%	18.15%	40.72%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	31.82%	4.25%	40.58%	50.63%
vumichien/wav2vec2 - large - xlsr - japanese	318M	39.87%	4.21%	53.29%	62.12%

长语音测试结果

模型	参数数量	JSUT - BOOK CER
reazon - research/japanese - wav2vec2 - large - rs35kh	319M	30.98%
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	82.84%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	65.60%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	46.20%
vumichien/wav2vec2 - large - xlsr - japanese	318M	46.52%

🔧 技术细节

本模型基于 wav2vec 2.0 Large 进行微调，使用了大规模的日语 ASR 语料库 ReazonSpeech v2.0。在微调过程中，通过优化模型参数，使其能够更好地适应日语语音的特点，从而提高语音识别的准确性。

📄 许可证

本模型采用 Apaceh Licence 2.0 许可证。

引用信息

@misc{reazon-research-japanese-wav2vec2-large-rs35kh,
  title={japanese-wav2vec2-large-rs35kh},
  author={Sasaki, Yuta},
  url = {https://huggingface.co/reazon-research/japanese-wav2vec2-large-rs35kh},
  year = {2024}
}