O

Owsm Ctc V3.2 Ft 1B

由 espnet 开发
OWSM-CTC是基于分层多任务自条件CTC的仅编码器语音基础模型,支持多语言语音识别、语音翻译和语言识别。
下载量 110
发布时间 : 9/24/2024
模型介绍
内容详情
替代品

模型简介

该模型在180k小时的公开音频数据上训练,支持多语言语音识别、任意到任意语音翻译和语言识别,是开放Whisper风格语音模型(OWSM)项目的一部分。

模型特点

多任务支持
同时支持语音识别、语音翻译和语言识别三种任务
大规模训练
基于180k小时的公开音频数据训练
高效推理
提供批量推理和长音频处理能力
CTC强制对齐
支持使用ctc-segmentation进行音频与文本的对齐

模型能力

多语言语音识别
任意到任意语音翻译
语言识别
长音频处理
批量推理

使用案例

语音转写
会议记录自动转写
将会议录音自动转换为文字记录
支持多种语言的准确转写
语音翻译
实时语音翻译
将一种语言的语音实时翻译为另一种语言的文字
支持任意语言对之间的翻译
音频分析
语言识别
识别音频中使用的语言
可识别多种语言