wav2vec2-conformer-rope-large-100h-ft开源语音模型 - 基于100小时数据微调精准识别语音

首页

Wav2vec2 Conformer Rope Large 100h Ft

由 facebook 开发

基于Librispeech 100小时语音数据微调的Wav2Vec2 Conformer模型，采用旋转位置嵌入技术

语音识别

Transformers

英语开源协议:Apache-2.0 #旋转位置嵌入 #Librispeech微调 #高精度语音识别

下载量 99

发布时间 : 4/18/2022

模型简介

该模型是基于Wav2Vec2 Conformer架构的自动语音识别(ASR)模型，融合了旋转位置嵌入技术，在Librispeech 100小时语音数据上微调，适用于英语语音转文本任务。

模型特点

旋转位置嵌入

采用旋转位置嵌入(RoPE)技术，增强了模型对语音序列位置信息的建模能力

Conformer架构

结合了Transformer和CNN的优势，能同时捕捉局部和全局语音特征

高效训练

基于Librispeech 100小时数据微调，在相对较小的数据量下实现良好性能

模型能力

英语语音识别

16kHz音频处理

端到端语音转文本

使用案例

语音转录

会议记录

将英语会议录音自动转录为文字记录

高准确率的转录结果

播客转文字

将英语播客内容转换为可搜索的文本

辅助技术

实时字幕生成

为英语视频或直播生成实时字幕

属性	详情
数据集	librispeech_asr
标签	语音、音频、自动语音识别、HF 自动语音识别排行榜
许可证	Apache-2.0

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Wav2vec2 Conformer Rope Large 100h Ft

模型简介

模型特点

模型能力

使用案例

🚀 Wav2Vec2-Conformer-Large-100h 带旋转位置嵌入

🚀 快速开始

基础用法

📄 许可证

📋 信息表格