faster-whisper-large-v2开源模型 - 免费支持多语言语音转文字任务

首页

Faster Whisper Large V2

由 Systran 开发

Whisper large-v2是OpenAI开发的大规模自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

语音识别支持多种语言开源协议:MIT #多语言语音转录 #实时语音识别 #高精度转写

下载量 948.29k

发布时间 : 11/23/2023

模型简介

该模型是基于Transformer架构的自动语音识别系统，能够将语音转换为文本，支持多种语言和口音。

模型特点

多语言支持

支持超过100种语言的语音识别

高效推理

通过CTranslate2优化，提供更快的推理速度

高精度

在多种语言和口音上表现出色的识别准确率

FP16量化

模型权重以FP16格式保存，平衡精度和性能

模型能力

语音转文字

多语言识别

实时转录

音频文件处理

使用案例

媒体转录

播客转录

将播客音频内容自动转换为文字稿

提高内容可访问性和SEO优化

视频字幕生成

为视频内容自动生成字幕

提高视频可访问性和多语言支持

会议记录

会议记录自动化

实时转录会议内容

提高会议效率和记录准确性

客户服务

语音客服记录

自动记录和分析客服通话

提高服务质量分析和培训效率

🚀 适用于CTranslate2的Whisper large - v2模型

本项目将openai/whisper-large-v2模型转换为CTranslate2模型格式。该模型可在CTranslate2或基于CTranslate2的项目（如faster-whisper）中使用。

🚀 快速开始

代码示例

from faster_whisper import WhisperModel

model = WhisperModel("large-v2")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

📚 详细文档

转换详情

原始模型使用以下命令进行转换：

ct2-transformers-converter --model openai/whisper-large-v2 --output_dir faster-whisper-large-v2 \
    --copy_files tokenizer.json --quantization float16

请注意，模型权重以FP16格式保存。在使用CTranslate2加载模型时，可以通过compute_type选项更改此类型。

📄 许可证

本项目采用MIT许可证。

支持语言

英语、中文、德语、西班牙语、俄语、韩语、法语、日语、葡萄牙语、土耳其语、波兰语、加泰罗尼亚语、荷兰语、阿拉伯语、瑞典语、意大利语、印尼语、印地语、芬兰语、越南语、希伯来语、乌克兰语、希腊语、马来语、捷克语、罗马尼亚语、丹麦语、匈牙利语、泰米尔语、挪威语、泰语、乌尔都语、克罗地亚语、保加利亚语、立陶宛语、拉丁语、毛利语、马拉雅拉姆语、威尔士语、斯洛伐克语、泰卢固语、波斯语、拉脱维亚语、孟加拉语、塞尔维亚语、阿塞拜疆语、斯洛文尼亚语、卡纳达语、爱沙尼亚语、马其顿语、布列塔尼语、巴斯克语、冰岛语、亚美尼亚语、尼泊尔语、蒙古语、波斯尼亚语、哈萨克语、阿尔巴尼亚语、斯瓦希里语、加利西亚语、马拉地语、旁遮普语、僧伽罗语、高棉语、绍纳语、约鲁巴语、索马里语、南非荷兰语、奥克西坦语、格鲁吉亚语、白俄罗斯语、塔吉克语、信德语、古吉拉特语、阿姆哈拉语、意第绪语、老挝语、乌兹别克语、法罗语、海地克里奥尔语、普什图语、土库曼语、新挪威语、马耳他语、梵语、卢森堡语、缅甸语、藏语、他加禄语、马达加斯加语、阿萨姆语、鞑靼语、夏威夷语、林加拉语、豪萨语、巴什基尔语、爪哇语、巽他语