W

Wav2vec2 Base 960h

由 Xenova 开发
基于Facebook wav2vec2-base-960h模型的ONNX格式转换版本,专为Transformers.js设计,支持浏览器端语音识别
下载量 117
发布时间 : 7/26/2023
模型介绍
内容详情
替代品

模型简介

该模型是自动语音识别(ASR)模型,可将音频输入转换为文本输出,适用于英语语音转录任务

模型特点

浏览器兼容性
ONNX格式支持在浏览器环境中直接运行,无需服务器端处理
轻量级
基础版本模型适合在资源有限的环境中部署
高准确率
在960小时英语语音数据上训练,具备良好的识别准确率

模型能力

英语语音识别
实时音频转录
浏览器端语音处理

使用案例

语音转录
会议记录自动化
自动将会议录音转换为文字记录
示例转录准确率可达90%以上
语音控制应用
为Web应用添加语音控制功能
辅助工具
实时字幕生成
为视频或直播内容生成实时字幕