owls_4B_180K开源语音模型 - 支持多语言识别与翻译助力语音研究

首页

Owls 4B 180K

由 espnet 开发

OWLS是一套Whisper风格的模型，旨在帮助研究人员理解语音模型的扩展特性，支持多语言语音识别和翻译。

语音识别其他#多语言语音识别 #任意语言翻译 #大规模预训练

下载量 40

发布时间 : 2/14/2025

模型简介

OWLS模型使用ESPnet开发，支持多语言语音识别、语音翻译、话语级对齐、长文本转录和语言识别。

模型特点

多语言支持

支持多种语言的语音识别和翻译任务。

大规模训练

在高达360K小时的公开语音数据上进行训练。

多样化任务支持

支持语音识别、语音翻译、话语级对齐、长文本转录和语言识别等多种任务。

开源工具包

使用ESPnet开发，完全开源，便于研究人员使用和扩展。

模型能力

语音识别

语音翻译

话语级对齐

长文本转录

语言识别

使用案例

语音处理

多语言语音识别

将多种语言的语音转换为文本。

跨语言语音翻译

将一种语言的语音翻译为另一种语言的文本。

语音分析

话语级对齐

分析语音中的话语边界和时间对齐。

语言识别

识别语音中的语言类型。

🚀 OWLS：开放式Whisper风格大规模神经网络模型套件

OWLS是一套Whisper风格的模型，旨在助力研究人员理解语音模型的扩展特性。该套件中的模型参数范围从0.25B到18B不等，并且在多达360K小时的数据上进行训练。这些模型使用ESPnet开发，支持多语言语音识别和翻译。它是OWSM项目的一部分，该项目致力于利用公开可用的数据和开源工具包开发完全开放的语音基础模型。

🚀 快速开始

本仓库中的模型总共有46.6亿个参数，并且在18万小时的公开语音数据上进行训练。具体而言，它支持以下语音转文本任务：

语音识别
任意语言到任意语言的语音翻译
语句级对齐
长文本转录
语言识别

✨ 主要特性

参数范围广：OWLS模型参数从0.25B到18B，可满足不同场景需求。
多语言支持：支持多语言语音识别和翻译，应用场景广泛。
大规模数据训练：在多达360K小时的数据上训练，模型性能更优。

📦 安装指南

使用此模型前，请确保已安装espnet：

pip install espnet

💻 使用示例

基础用法

你可以在项目中使用以下代码调用该模型：

# make sure espnet is installed: pip install espnet
from espnet2.bin.s2t_inference import Speech2Text

model = Speech2Text.from_pretrained(
  "espnet/owls_4B_180K"
)

speech, rate = soundfile.read("speech.wav")
speech = librosa.resample(speech, orig_sr=rate, target_sr=16000) # make sure 16k sampling rate
text, *_ = model(speech)[0]

📚 详细文档

OWLS模型

模型名称	检查点	训练产物
OWLS 0.25B 180K	https://huggingface.co/espnet/owls_025B_180K	待公布
OWLS 0.50B 180K	https://huggingface.co/espnet/owls_05B_180K	https://huggingface.co/espnet/owls_05B_180K_intermediates/tree/main
OWLS 1B 11K	待公布	待公布
OWLS 1B 22K	待公布	待公布
OWLS 1B 45K	待公布	待公布
OWLS 1B 90K	待公布	待公布
OWLS 1B 180K	https://huggingface.co/espnet/owls_1B_180K	待公布
OWLS 2B 180K	https://huggingface.co/espnet/owls_2B_180K	待公布
OWLS 4B 180K	https://huggingface.co/espnet/owls_4B_180K	https://huggingface.co/espnet/owls_4B_180K_intermediates
OWLS 9B 180K	https://huggingface.co/espnet/owls_9B_180K	https://huggingface.co/espnet/owls_9B_180K_intermediates
OWLS 18B 180K	https://huggingface.co/espnet/owls_18B_180K	待公布
OWLS 18B 360K	https://huggingface.co/espnet/owls_18B_360K	待公布

📄 许可证

本项目采用CC BY 4.0许可证。

📚 引用

@article{chen2025owls,
  title={OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models},
  author={Chen, William and Tian, Jinchuan and Peng, Yifan and Yan, Brian and Yang, Chao-Han Huck and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2502.10373},
  year={2025}
}