Kotoba-Whisper-v2.1开源日语语音识别模型 - 自动加标点精准识别语音

首页

Kotoba Whisper V2.1

由 kotoba-tech 开发

Kotoba-Whisper-v2.1 是一款基于 Whisper 的日语自动语音识别（ASR）模型，集成了额外的后处理栈，能够自动添加标点符号。

语音识别

Transformers

日语开源协议:Apache-2.0 #日语语音识别 #标点符号自动添加 #低延迟推理

下载量 2,589

发布时间 : 9/17/2024

模型简介

该模型专注于日语语音识别任务，通过整合 punctuators 库实现标点符号的自动添加，提升了转录文本的可读性。

模型特点

标点符号自动添加

通过整合 punctuators 库，模型能够自动为转录文本添加标点符号，提升文本可读性。

优化的日语识别

专门针对日语语音识别进行优化，在多个日语数据集上表现优异。

流水线集成

后处理栈通过流水线无缝整合，简化了使用流程。

模型能力

日语语音识别

自动标点添加

批量处理音频

使用案例

语音转录

会议记录转录

将日语会议录音转换为带标点的文字记录

CER 17.7（CommonVoice 8 测试集）

媒体内容字幕生成

为日语视频内容自动生成带标点的字幕

CER 15.4（JSUT Basic 5000 数据集）

🚀 Kotoba-Whisper-v2.1

Kotoba-Whisper-v2.1 是基于 kotoba-tech/kotoba-whisper-v2.0 的日语自动语音识别（ASR）模型。它集成了额外的后处理栈，以 pipeline 的形式呈现。新特性包括使用 punctuators 添加标点符号。这些库通过管道合并到 Kotoba-Whisper-v2.1 中，并将无缝应用于 kotoba-tech/kotoba-whisper-v2.0 的预测转录结果。该管道由 Asahi Ushio 和 Kotoba Technologies 合作开发。

✨ 主要特性

基于 kotoba-tech/kotoba-whisper-v2.0 构建，具备额外后处理栈。
集成标点添加功能，使用 punctuators 库。
以 pipeline 形式集成后处理，无缝应用于预测转录结果。

📦 安装指南

Kotoba-Whisper-v2.1 从 Hugging Face 🤗 Transformers 库的 4.39 版本开始支持。要运行该模型，首先需要安装最新版本的 Transformers：

pip install --upgrade pip
pip install --upgrade transformers accelerate torchaudio
pip install stable-ts==2.16.0
pip install punctuators==0.0.5

💻 使用示例

基础用法

import torch
from transformers import pipeline
from datasets import load_dataset

# 配置
model_id = "kotoba-tech/kotoba-whisper-v2.1"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
generate_kwargs = {"language": "ja", "task": "transcribe"}

# 加载模型
pipe = pipeline(
    model=model_id,
    torch_dtype=torch_dtype,
    device=device,
    model_kwargs=model_kwargs,
    batch_size=16,
    trust_remote_code=True,
    punctuator=True
)

# 加载示例音频
dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
sample = dataset[0]["audio"]

# 运行推理
result = pipe(sample, chunk_length_s=15, return_timestamps=True, generate_kwargs=generate_kwargs)
print(result)

高级用法

转录本地音频文件

- result = pipe(sample, return_timestamps=True, generate_kwargs=generate_kwargs)
+ result = pipe("audio.mp3", return_timestamps=True, generate_kwargs=generate_kwargs)

停用标点器

-     punctuator=True,
+     punctuator=False,

使用 Flash Attention 2

如果你的 GPU 支持，建议使用 Flash-Attention 2。为此，你首先需要安装 Flash Attention：

pip install flash-attn --no-build-isolation

然后将 attn_implementation="flash_attention_2" 传递给 from_pretrained：

- model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
+ model_kwargs = {"attn_implementation": "flash_attention_2"} if torch.cuda.is_available() else {}

📚 详细文档

模型对比

以下表格展示了原始字符错误率（CER）（与通常的 CER 不同，这里在计算指标之前不会去除标点符号，评估脚本见此处）：

模型	CommonVoice 8 (日语测试集)	JSUT Basic 5000	ReazonSpeech (保留测试集)
kotoba-tech/kotoba-whisper-v2.0	17.6	15.4	17.4
kotoba-tech/kotoba-whisper-v2.1	17.7	15.4	17
kotoba-tech/kotoba-whisper-v1.0	17.8	15.2	17.8
kotoba-tech/kotoba-whisper-v1.1	17.9	15	17.8
openai/whisper-large-v3	15.3	13.4	20.5
openai/whisper-large-v2	15.9	10.6	34.6
openai/whisper-large	16.6	11.3	40.7
openai/whisper-medium	17.9	13.1	39.3
openai/whisper-base	34.5	26.4	76
openai/whisper-small	21.5	18.9	48.1
openai/whisper-tiny	58.8	38.3	153.3