Rev Reverb ASR开源英语自动语音识别模型 - 基于海量数据训练精准度高

首页

Reverb Asr

由 Revai 开发

Rev 的 Reverb ASR 模型基于 20 万小时人工专业转录的英语语音数据训练而成，是目前最精准的开源英语自动语音识别系统之一。

语音识别英语开源协议:其他 #高精度语音转录 #逐字可调风格 #20万小时训练

下载量 17

发布时间 : 8/26/2024

模型简介

Reverb ASR 是一个高效的自动语音识别系统，支持在 CPU 或 GPU 上运行，并允许用户自定义输出文本的逐字忠实度。

模型特点

高质量训练数据

基于 20 万小时人工专业转录的英语语音数据训练，是目前用于训练开源模型的最大规模人工转录音频语料库。

转录风格可调

通过 verbatimicity 参数控制输出风格，支持完全逐字、非逐字或介于两者之间的转录风格。

多种解码模式

支持多种解码模式，包括 attention、ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring 和 joint_decoding。

高效架构

模型架构高效，可在 CPU 或 GPU 上运行，适合多种应用场景。

模型能力

英语语音识别

逐字转录

非逐字转录

半逐字转录

使用案例

语音转录

专业会议记录

用于记录专业会议内容，支持完全逐字转录，确保不遗漏任何细节。

高精度转录，适合需要完整记录的场合。

音频编辑

适用于音频编辑场景，生成清晰易读的转录文本或完全逐字记录。

可根据需求调整转录风格，满足不同编辑需求。

语音分析

口语分析

用于分析口语中的犹豫措辞和重复修正，帮助改进口语表达。

提供详细的逐字记录，便于分析口语习惯。

🚀 语音识别模型Reverb ASR

Rev的Reverb ASR是一款基于200,000小时英语语音数据训练的自动语音识别系统，采用高效模型架构，可在CPU或GPU上运行，能提供高精度的英语语音识别服务，还支持用户控制输出转录的逐字程度。

🚀 快速开始

关于该模型的详细信息、性能等可查看 Arxiv论文。

克隆模型

Reverb ASR模型v1存储在本模型仓库中。

安装推理依赖

可查看我们的推理代码：https://github.com/revdotcom/reverb/tree/main/asr

✨ 主要特性

转录风格选项

Reverb ASR经过训练，可生成逐字或非逐字风格的转录内容。逐字风格会将每个单词按原话转录；非逐字风格则会去除转录中的不流畅表达。

用户可以使用 verbatimicity 参数指定Reverb ASR的输出风格。1对应逐字转录，0对应非逐字转录。接受0到1之间的值，可能对应半非逐字风格。可在这里测试 verbatimicity 参数与您自己的音频。

解码选项

Reverb ASR使用了此处和此处描述的联合CTC/注意力架构，并支持多种解码模式。用户可以在 recognize_wav.py 中指定一种或多种解码模式，每个解码模式将创建单独的输出目录。

解码选项包括：

attention
ctc_greedy_search
ctc_prefix_beam_search
attention_rescoring
joint_decoding

📦 安装指南

本部分在原文档中未提及具体安装命令，故跳过。

💻 使用示例

基础用法

python wenet/bin/recognize_wav.py --config model.yaml \
    --checkpoint model.pt \
    --audio hello_world.wav \
    --modes ctc_prefix_beam_search attention_rescoring \
    --gpu 0 \
    --verbatimicity 1.0

或者查看我们在 HuggingFace 上的演示。

📚 详细文档

代码说明

wenet 文件夹是 WeNet 仓库的一个分支，并针对Rev特定架构进行了一些修改。

wer_evaluation 文件夹包含运行不同基准测试工具的说明和代码。这些脚本并非特定于Reverb架构。

基准测试

有关详细信息和结果，请查看 https://github.com/revdotcom/reverb/tree/main/asr 的 wer_evaluation 文件夹。

引用此模型

如果您使用此模型，请使用以下引用：

@misc{bhandari2024reverbopensourceasrdiarization,
      title={Reverb: Open-Source ASR and Diarization from Rev}, 
      author={Nishchal Bhandari and Danny Chen and Miguel Ángel del Río Fernández and Natalie Delworth and Jennifer Drexler Fox and Migüel Jetté and Quinten McNamara and Corey Miller and Ondřej Novotný and Ján Profant and Nan Qin and Martin Ratajczak and Jean-Philippe Robichaud},
      year={2024},
      eprint={2410.03930},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.03930}, 
}