标签:
- espnet
- 音频
- 自动语音识别
- 语音翻译
语言: 多语言
数据集:
- owsm_v3.1
许可证: cc-by-4.0
指标:
- 词错误率(wer)
- 双语评估替补分数(bleu)
OWLS: 开放式Whisper风格大规模神经模型套件
论文
OWLS是一套Whisper风格的模型,旨在帮助研究人员理解语音模型的扩展特性。OWLS模型的参数量从0.25B到18B不等,并在高达360K小时的数据上进行训练。
OWLS模型使用ESPnet开发,支持多语言语音识别和翻译。
它是OWSM项目的一部分,该项目旨在利用公开可用的数据和开源工具包开发完全开放的语音基础模型。
此仓库中的模型总共有4.66B参数,并在180K小时的公开语音数据上进行训练。具体来说,它支持以下语音到文本任务:
- 语音识别
- 任意语言到任意语言的语音翻译
- 话语级对齐
- 长文本转录
- 语言识别
使用此模型
您可以使用以下代码在您的项目中使用此模型:
from espnet2.bin.s2t_inference import Speech2Text
model = Speech2Text.from_pretrained(
"espnet/owls_4B_180K"
)
speech, rate = soundfile.read("speech.wav")
speech = librosa.resample(speech, orig_sr=rate, target_sr=16000)
text, *_ = model(speech)[0]
OWLS模型
模型名称 |
检查点 |
训练产物 |
OWLS 0.25B 180K |
https://huggingface.co/espnet/owls_025B_180K |
待公布 |
OWLS 0.50B 180K |
https://huggingface.co/espnet/owls_05B_180K |
https://huggingface.co/espnet/owls_05B_180K_intermediates/tree/main |
OWLS 1B 11K |
待公布 |
待公布 |
OWLS 1B 22K |
待公布 |
待公布 |
OWLS 1B 45K |
待公布 |
待公布 |
OWLS 1B 90K |
待公布 |
待公布 |
OWLS 1B 180K |
https://huggingface.co/espnet/owls_1B_180K |
待公布 |
OWLS 2B 180K |
https://huggingface.co/espnet/owls_2B_180K |
待公布 |
OWLS 4B 180K |
https://huggingface.co/espnet/owls_4B_180K |
https://huggingface.co/espnet/owls_4B_180K_intermediates |
OWLS 9B 180K |
https://huggingface.co/espnet/owls_9B_180K |
https://huggingface.co/espnet/owls_9B_180K_intermediates |
OWLS 18B 180K |
https://huggingface.co/espnet/owls_18B_180K |
待公布 |
OWLS 18B 360K |
https://huggingface.co/espnet/owls_18B_360K |
待公布 |
引用
@article{chen2025owls,
title={OWLS: 多语言语音识别和翻译模型的扩展定律},
author={陈威廉和田金川、彭一凡和严布莱恩、杨超汉和渡边慎治},
journal={arXiv预印本 arXiv:2502.10373},
year={2025}
}