wav2vec2-large-960h-lv60-self-with-wikipedia-lm开源ASR系统

首页

Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm

由 gxbag 开发

基于Facebook的wav2vec2-large-960h-lv60-self模型，通过增强维基百科语言模型改进的自动语音识别(ASR)系统

语音识别

Transformers

#高精度语音识别 #维基百科增强 #5-gram语言模型

下载量 15

发布时间 : 4/20/2022

模型简介

该模型结合了Facebook的wav2vec2语音识别架构和维基百科文本训练的5-gram语言模型，提高了语音转文字的准确性。

模型特点

增强语言模型

使用维基百科全文训练的5-gram KenLM语言模型，提高了识别准确性

大规模训练

基于960小时语音数据和800多万单词的文本数据训练

优化处理

对维基百科数据进行了清理，移除了参考文献、外部链接等非正文内容

高效剪枝

语言模型中所有3-gram及更大规模的单例词均被剪枝，保持模型效率

模型能力

英语语音识别

长音频处理(支持分块处理)

高准确率转录

使用案例

语音转录

会议记录

将会议录音自动转换为文字记录

提高会议记录效率，便于后期检索

播客转录

将播客内容转换为文字版本

便于内容索引和SEO优化

辅助技术

实时字幕生成

为视频或直播生成实时字幕

提高内容可访问性

🚀 facebook/wav2vec2-large-960h-lv60-self增强版

本项目是 facebook/wav2vec2-large-960h-lv60-self 模型，并结合维基百科语言模型进行了增强。该模型能够在语音识别任务中提供更准确、更自然的识别结果，提升语音处理的效率和质量。

🚀 快速开始

以下是使用该模型进行自动语音识别的示例代码：

from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="gxbag/wav2vec2-large-960h-lv60-self-with-wikipedia-lm")
output = pipe("/path/to/audio.wav", chunk_length_s=30, stride_length_s=(6, 3))
output

📦 安装指南

文档未提及安装相关内容，若有安装需求，请参考 transformers 库的官方安装说明。

💻 使用示例

基础用法

from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="gxbag/wav2vec2-large-960h-lv60-self-with-wikipedia-lm")
output = pipe("/path/to/audio.wav", chunk_length_s=30, stride_length_s=(6, 3))
output

高级用法

文档未提及高级用法相关代码示例，若有高级场景需求，可进一步探索模型的参数设置和功能扩展。

🔧 技术细节

数据集

使用的数据集为 wikipedia/20200501.en，包含了所有的文章。对数据进行了清洗，去除了参考文献、外部链接以及括号内的所有文本，处理后的数据共有 8092546 个单词。

语言模型

语言模型使用 KenLM 构建，是一个 5-gram 模型，其中 3-gram 及更大的单例均被修剪。构建命令如下： kenlm/build/bin/lmplz -o 5 -S 120G --vocab_estimate 8092546 --text text.txt --arpa text.arpa --prune 0 0 1