hubert-xlarge-ls960-ft开源语音识别模型 - 免费高效精准处理语音内容

首页

Hubert Xlarge Ls960 Ft

由 facebook 开发

基于Librispeech 960小时语音数据微调的Hubert超大规模语音识别模型，在LibriSpeech测试集上WER仅为1.8

语音识别

Transformers

英语开源协议:Apache-2.0 #高精度语音识别 #自监督学习 #英语语音处理

下载量 8,160

发布时间 : 3/2/2022

模型简介

该模型是Facebook开发的Hubert自监督语音表征学习模型的微调版本，专门用于英语自动语音识别任务。

模型特点

自监督学习

采用HuBERT自监督学习方法，通过离线聚类步骤提供BERT式预测损失目标

高性能

在LibriSpeech clean测试集上WER仅为1.8，性能优异

大规模训练

基于Librispeech 960小时语音数据进行微调

模型能力

英语语音识别

16kHz采样率音频处理

使用案例

语音转写

会议记录转写

将英语会议录音自动转写为文字

高准确率的文字转写结果

音频内容索引

为音频内容创建可搜索的文字索引

提升音频内容的可检索性

🚀 Hubert-Extra-Large-Finetuned

基于Facebook的Hubert模型，在960小时的Librispeech语音音频上进行微调的超大型模型，可用于自动语音识别任务。

🚀 快速开始

本模型是在16kHz采样的语音音频上，基于960小时的Librispeech数据进行微调的超大型模型。使用该模型时，请确保输入的语音也采样为16kHz。

模型是 hubert-xlarge-ll60k 的微调版本。

论文链接

作者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

✨ 主要特性

适用数据集：libri-light、librispeech_asr
标签：speech、audio、automatic-speech-recognition、hf-asr-leaderboard
许可证：apache-2.0

属性	详情
模型类型	Hubert-Extra-Large-Finetuned
训练数据	libri-light、librispeech_asr

模型评估结果

在LibriSpeech (clean) 测试集上的字错率（WER）为1.8。

📚 详细文档

摘要

语音表征学习的自监督方法面临三个独特的问题：（1）每个输入语音中有多个声音单元；（2）在预训练阶段没有输入声音单元的词典；（3）声音单元长度可变且没有明确的分割。为了解决这三个问题，我们提出了用于自监督语音表征学习的Hidden-Unit BERT（HuBERT）方法，该方法利用离线聚类步骤为类似BERT的预测损失提供对齐的目标标签。我们方法的一个关键要素是仅在掩码区域上应用预测损失，这迫使模型在连续输入上学习组合的声学和语言模型。HuBERT主要依赖于无监督聚类步骤的一致性，而不是分配的聚类标签的内在质量。从一个简单的100个聚类的k-means教师开始，并使用两轮聚类，HuBERT模型在Librispeech（960小时）和Libri-light（60,000小时）基准测试的10分钟、1小时、10小时、100小时和960小时微调子集上，要么与最先进的wav2vec 2.0性能相匹配，要么有所改进。使用一个10亿参数的模型，HuBERT在更具挑战性的dev-other和test-other评估子集上显示出高达19%和13%的相对字错率降低。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 找到。

💻 使用示例

基础用法

import torch
from transformers import Wav2Vec2Processor, HubertForCTC
from datasets import load_dataset

processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-xlarge-ls960-ft")
model = HubertForCTC.from_pretrained("facebook/hubert-xlarge-ls960-ft")
    
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.decode(predicted_ids[0])

# ->"A MAN SAID TO THE UNIVERSE SIR I EXIST"