faster-whisper-large-v3开源语音识别模型 - 免费支持多语言语音转文字

首页

Faster Whisper Large V3

由 Systran 开发

Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

语音识别支持多种语言开源协议:MIT #多语言语音识别 #高精度转写 #实时音频处理

下载量 713.48k

发布时间 : 11/23/2023

模型简介

该模型是基于Transformer架构的自动语音识别系统，能够将语音转换为文本，支持广泛的语言和方言。

模型特点

多语言支持

支持超过100种语言的语音识别，包括许多小众语言和方言。

高效推理

通过CTranslate2优化，提供更快的推理速度和更低的资源消耗。

高准确率

在多种语言和口音上表现出色的识别准确率。

模型能力

语音转文字

多语言识别

口音适应

使用案例

转录服务

会议记录

自动记录会议内容并生成文字稿

提高会议记录效率，减少人工转录时间

播客转录

将播客音频内容转换为文字

便于内容搜索和索引

辅助技术

实时字幕生成

为视频或直播生成实时字幕

提高内容可访问性

🚀 适用于CTranslate2的Whisper large-v3模型

本仓库包含将 openai/whisper-large-v3 转换为 CTranslate2 模型格式的内容。该模型可用于CTranslate2或基于CTranslate2的项目，如 faster-whisper。

🚀 快速开始

本模型可以在CTranslate2或者基于CTranslate2的项目（例如 faster-whisper）中使用。

💻 使用示例

基础用法

from faster_whisper import WhisperModel

model = WhisperModel("large-v3")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

🔧 技术细节

转换详情

原始模型是使用以下命令进行转换的：

ct2-transformers-converter --model openai/whisper-large-v3 --output_dir faster-whisper-large-v3 \
    --copy_files tokenizer.json preprocessor_config.json --quantization float16

请注意，模型权重以FP16格式保存。在使用 CTranslate2中的 compute_type 选项加载模型时，可以更改此类型。

📚 详细文档

有关原始模型的更多信息，请参阅其模型卡片。

📄 许可证

本项目采用MIT许可证。

支持语言

语言	代码
英语	en
中文	zh
德语	de
西班牙语	es
俄语	ru
韩语	ko
法语	fr
日语	ja
葡萄牙语	pt
土耳其语	tr
波兰语	pl
加泰罗尼亚语	ca
荷兰语	nl
阿拉伯语	ar
瑞典语	sv
意大利语	it
印尼语	id
印地语	hi
芬兰语	fi
越南语	vi
希伯来语	he
乌克兰语	uk
希腊语	el
马来语	ms
捷克语	cs
罗马尼亚语	ro
丹麦语	da
匈牙利语	hu
泰米尔语	ta
挪威语	no
泰语	th
乌尔都语	ur
克罗地亚语	hr
保加利亚语	bg
立陶宛语	lt
拉丁语	la
毛利语	mi
马拉雅拉姆语	ml
威尔士语	cy
斯洛伐克语	sk
泰卢固语	te
波斯语	fa
拉脱维亚语	lv
孟加拉语	bn
塞尔维亚语	sr
阿塞拜疆语	az
斯洛文尼亚语	sl
卡纳达语	kn
爱沙尼亚语	et
马其顿语	mk
布列塔尼语	br
巴斯克语	eu
冰岛语	is
亚美尼亚语	hy
尼泊尔语	ne
蒙古语	mn
波斯尼亚语	bs
哈萨克语	kk
阿尔巴尼亚语	sq
斯瓦希里语	sw
加利西亚语	gl
马拉地语	mr
旁遮普语	pa
僧伽罗语	si
高棉语	km
绍纳语	sn
约鲁巴语	yo
索马里语	so
南非荷兰语	af
奥克西坦语	oc
格鲁吉亚语	ka
白俄罗斯语	be
塔吉克语	tg
信德语	sd
古吉拉特语	gu
阿姆哈拉语	am
意第绪语	yi
老挝语	lo
乌兹别克语	uz
法罗语	fo
海地克里奥尔语	ht
普什图语	ps
土库曼语	tk
书面挪威语	nn
马耳他语	mt
梵语	sa
卢森堡语	lb
缅甸语	my
藏语	bo
他加禄语	tl
马达加斯加语	mg
阿萨姆语	as
鞑靼语	tt
夏威夷语	haw
林加拉语	ln
豪萨语	ha
巴什基尔语	ba
爪哇语	jw
巽他语	su
粤语	yue

属性	详情
标签	音频、自动语音识别
库名称	ctranslate2