wav2vec2-large-xlsr-53-chinese语音模型 - 开源免费支持中文语音识别

首页

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

由 qinyue 开发

基于facebook/wav2vec2-large-xlsr-53在中文AISHELL-1数据集上微调的语音识别模型，支持中文语音识别任务。

语音识别

Transformers

中文开源协议:Apache-2.0 #中文语音识别 #低WER #无语言模型依赖

下载量 22

发布时间 : 6/16/2022

模型简介

该模型是一个自动语音识别(ASR)模型，专门针对中文语音进行优化，能够将中文语音转换为文本。

模型特点

中文语音识别

专门针对中文语音优化的识别模型，在AISHELL-1数据集上表现优异。

无需语言模型

可以直接使用，不需要额外的语言模型支持。

高准确率

在AISHELL-1测试集上达到7.04%的词错误率(WER)，使用语言模型后可降至3.96%。

模型能力

中文语音识别

16kHz采样率音频处理

使用案例

语音转写

会议记录

将会议录音自动转换为文字记录

准确率高达92.96%(WER 7.04%)

语音助手

用于中文语音助手的人机交互

语音分析

语音内容分析

分析语音内容中的关键词和主题

🚀 Wav2Vec2-Large-XLSR-53-Chinese-zh-CN-aishell1

本项目基于AISHELL-1数据集，对中文语音数据微调了facebook/wav2vec2-large-xlsr-53模型。使用该模型时，请确保输入的语音采样率为16kHz。

🚀 快速开始

本模型可直接使用（无需语言模型），示例代码如下：

💻 使用示例

基础用法

import torch
import librosa
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

device = "cuda:0" if torch.cuda.is_available() else "cpu"

processor = Wav2Vec2Processor.from_pretrained(
    'qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1')
model = Wav2Vec2ForCTC.from_pretrained(
    'qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1').to(device)

filepath = 'test.wav'
audio, sr = librosa.load(filepath, sr=16000, mono=True)
inputs = processor(audio, sample_rate=16000, return_tensors="pt").to(device)
with torch.no_grad():
    logits = model(inputs.input_values,
                   attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
pred_str = processor.decode(predicted_ids[0])

print(pred_str)

📚 详细文档

评估代码

wer_metric = load_metric("wer")

def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)

    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id

    pred_str = processor.batch_decode(pred_ids, spaces_between_special_tokens=True)
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False, spaces_between_special_tokens=True)

    wer = wer_metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}

评估结果

参考文本	预测文本
据伟业我爱我家市场研究院测算	据北业我爱我家市场研究院测算
七月北京公积金贷款成交量提升了百分之五	七月北京公积金贷款成交量提升了百分之五
培育门类丰富层次齐用的综合利用产业	培育门类丰富层资集业的综合利用产业
我们迎来了赶超发达国家的难得机遇	我们迎来了赶超发达国家的单得机遇
坚持基本草原保护制度	坚持基本草员保护制度
强化水生生态修复和建设	强化水生生态修复和建设
温州两男子为争女人驾奔驰宝马街头四次对撞	温州两男子为争女人架奔驰宝马接头四次对重
她表示应该是吃吃饭看电影之类的	他表示一的是吃吃饭看电影之理
加强畜禽遗传资源和农业野生植物资源保护	加强续紧遗传资源和农业野生职物资源保护
两人都是依赖电话沟通	两人都是依赖电话沟通

测试结果：以下表格展示了模型在AISHELL-1测试数据集上的词错误率（WER）。

模型	词错误率（WER）	带语言模型的词错误率（WER-with-LM）
qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1	7.04%	3.96%

📄 许可证

本项目采用Apache-2.0许可证。

📦 模型信息

属性	详情
模型类型	微调后的Wav2Vec2-Large-XLSR-53中文模型
训练数据	AISHELL-1中文语音数据集
评估指标	词错误率（WER）
标签	音频、自动语音识别、语音、XLSR微调周
模型名称	XLSR Wav2Vec2 Large 53 - 中文 (zh-CN)，作者：Yue Qin