OWSM是一个开源Whisper风格语音模型,基于公开数据和ESPnet工具包开发,支持多语言语音识别、翻译等任务。
下载量 291
发布时间 : 12/22/2023
模型简介
OWSM旨在利用公开可用数据和开源工具包开发完全开放的语音基础模型,支持语音识别、任意语言间语音翻译、语句级对齐、长文本转录和语言识别等多种任务。
模型特点
开源语音基础模型
完全基于公开数据和开源工具包开发,确保透明性和可复现性。
改进的语音编码器
采用先进的E-Branchformer编码器,相比前代版本性能显著提升。
多任务支持
单一模型支持语音识别、翻译、对齐、长文本转录和语言识别等多种任务。
大规模训练数据
基于18万小时公开语音数据训练,覆盖多种语言和场景。
模型能力
语音识别
跨语言语音翻译
语句级对齐
长文本转录
语言识别
使用案例
语音转文本
多语言语音识别
将多种语言的语音转换为对应语言的文本
支持高质量的多语言转录
语音翻译
直接将一种语言的语音翻译为另一种语言的文本
实现跨语言即时翻译
语音分析
语言识别
自动识别语音中的语言类型
准确识别多种语言
语音对齐
将语音与文本进行时间对齐
生成精确的语音-文本对齐信息
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文