wav2vec2-base-960h-4-gram开源语音识别模型 - 免费提升英语语音识别准确率

首页

Wav2vec2 Base 960h 4 Gram

由 patrickvonplaten 开发

基于Facebook的Wav2Vec2-Base-960h模型，增加了英语4-gram语言模型，用于提高自动语音识别(ASR)的准确率。

语音识别

Transformers

英语开源协议:Apache-2.0 #高精度语音识别 #英语语音转写 #低词错误率

下载量 19

发布时间 : 4/12/2022

模型简介

该模型是Wav2Vec2的变体，专门用于英语自动语音识别任务，通过集成4-gram语言模型提升了识别准确率。

模型特点

集成4-gram语言模型

使用Librispeech官方ngrams中的4-gram.arpa.gz文件，提高了语音识别的准确率。

基于Wav2Vec2架构

采用Facebook的Wav2Vec2-Base-960h模型作为基础，具有强大的语音特征提取能力。

模型能力

英语语音识别

高准确率语音转文本

使用案例

语音转录

音频内容转录

将英语语音内容自动转换为文本

在LibriSpeech测试集上达到2.59-6.46的WER

语音助手

语音命令识别

用于语音助手系统中的命令识别

属性	详情
模型类型	语音识别模型，基于Wav2Vec2-Base-960h并增加英文4-gram
训练数据	LibriSpeech数据集
许可证	Apache-2.0

数据集	测试WER
LibriSpeech (clean)	2.59
LibriSpeech (other)	6.46

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Wav2vec2 Base 960h 4 Gram

模型简介

模型特点

模型能力

使用案例

🚀 Wav2Vec2-Base-960h + 4-gram

🚀 快速开始

模型信息

示例演示

评估结果

💻 使用示例

基础用法

高级用法

📄 许可证