O

Owsm V3.1 Ebf

由 espnet 开发
OWSM是一个开源Whisper风格语音模型,基于公开数据和ESPnet工具包开发,支持多语言语音识别、翻译等任务。
下载量 291
发布时间 : 12/22/2023
模型介绍
内容详情
替代品

模型简介

OWSM旨在利用公开可用数据和开源工具包开发完全开放的语音基础模型,支持语音识别、任意语言间语音翻译、语句级对齐、长文本转录和语言识别等多种任务。

模型特点

开源语音基础模型
完全基于公开数据和开源工具包开发,确保透明性和可复现性。
改进的语音编码器
采用先进的E-Branchformer编码器,相比前代版本性能显著提升。
多任务支持
单一模型支持语音识别、翻译、对齐、长文本转录和语言识别等多种任务。
大规模训练数据
基于18万小时公开语音数据训练,覆盖多种语言和场景。

模型能力

语音识别
跨语言语音翻译
语句级对齐
长文本转录
语言识别

使用案例

语音转文本
多语言语音识别
将多种语言的语音转换为对应语言的文本
支持高质量的多语言转录
语音翻译
直接将一种语言的语音翻译为另一种语言的文本
实现跨语言即时翻译
语音分析
语言识别
自动识别语音中的语言类型
准确识别多种语言
语音对齐
将语音与文本进行时间对齐
生成精确的语音-文本对齐信息