EraX-WoW-Turbo-V1.1-CT2开源模型 - 多语言语音识别，越南语增强，快准兼备！

首页

Erax WoW Turbo V1.1 CT2

由 erax-ai 开发

基于CTranslate2优化的Whisper Large-v3 Turbo越南语增强本地化版，支持多语言语音识别，速度快、准确度高

语音识别

Transformers

其他开源协议:MIT #越南语增强 #实时语音转写 #多语言ASR

下载量 1,283

发布时间 : 3/31/2025

模型简介

这是一个优化的语音转文本模型，基于Whisper Large-v3 Turbo架构，特别针对越南语进行了增强，同时支持多种语言。模型经过CTranslate2优化，提供极速转录能力。

模型特点

极速转录

处理30秒音频仅需约350毫秒，支持实时转录

多语言支持

支持11种语言，特别针对越南语8种地区口音优化

高准确度

在主要语言中词错率(WER)约为12%，能处理各种口音

CTranslate2优化

通过CTranslate2库实现2.5倍加速，适合低延迟应用

模型能力

语音转文本

多语言识别

实时转录

口音适应

使用案例

实时转录

会议记录

实时转录会议内容

几乎实时的文字记录

采访记录

自动转录采访音频

快速准确的采访记录

无障碍工具

听力辅助

为听力障碍人士提供实时字幕

提高沟通可及性

媒体制作

视频字幕

自动为视频生成字幕

快速准确的字幕生成

🚀 EraX-WoW-Turbo V1.1-CT2：适用于越南语及更多语言的Whisper Large-v3 Turbo，搭配CTranslate2，性能超强且本地化！🚀

EraX-WoW-Turbo V1.1-CT2基于令人印象深刻的Whisper Large-v3 Turbo构建，它能提供比喝了咖啡的猎豹还快的语音识别速度，其准确性足以让最挑剔的技术达人朋友也为之赞叹。它就像是经过严格训练并喝了大量浓缩咖啡后的Whisper Large-v3。（承诺兑现！遵循MIT许可协议 - 绝对完全免费。）

Logo

🚀 快速开始

EraX-WoW-Turbo V1.1-CT2是一款强大的语音识别模型，它在Whisper Large-v3 Turbo的基础上进行了优化，结合CTranslate2库，能实现超快速且准确的语音识别。以下是使用该模型的步骤：

安装依赖

* 安装以下包

pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2

代码示例

from faster_whisper import WhisperModel

model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"

# 必要时将音频转换为单声道并设置采样率为16000
from pydub import AudioSegment
def convert16k(audio_path):
    audio = AudioSegment.from_file(audio_path, format="wav")    
    audio = audio.split_to_mono()[0]
    audio = audio.set_frame_rate(16000)

    audio.export("test.wav", format="wav")
    return True
    
# 在GPU上使用FP16运行
fast_model = WhisperModel(model_path, device="cuda", compute_type="bfloat16", )

segments, info = fast_model.transcribe(test["path"], beam_size=5,
                                  #word_timestamps=True,
                                  language="vi",
                                  temperature=0.0,
                                  vad_filter=True,
                                  #vad_parameters=dict(min_silence_duration_ms=2000),
                                  )

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

✨ 主要特性

极速运行

借助CTranslate2库，实现实时转录。由于Turbo架构的巧妙优化，该模型能在约350ms内处理30秒的音频，让转录几乎在你说话结束前就完成。相比之下，原始的中等模型就显得力不从心了。

多语言支持

EraX-WoW-Turbo不仅速度快，还是一个语言多面手。它在涵盖11种关键语言的多样化数据集上进行了微调：

越南语（涵盖所有8个地区，不会遗漏任何口音 😉）
英语（美国）
中文（普通话）
粤语
印尼语
韩语
日语
俄语
德语
法语
荷兰语

我们相信这个语言选择为广泛的应用提供了坚实的基础。

高准确性

虽然最终的基准测试结果仍在敲定中（即将公布！），但初步测试显示，在包括具有挑战性的越南方言在内的主要语言中，该模型的单词错误率（WER）约为12%。即使你有很重的地方口音，它也能理解你。

精心训练

该模型在大量数据集（约600,000个样本，约1000小时）上进行训练，涵盖了真实世界的音频条件。有噪音也没问题！

开源（MIT许可）

你可以自由使用，没有任何限制。

在线试听

"Chị Lan Anh ơi, em xin lỗi vì sự cố mất sóng vừa rồi. Em đã ghi nhận được hầu hết thông tin rồi ạ. Bây giờ em muốn hỏi chị là hiện tại xe của chị đang ở đâu ạ? Xe vẫn còn ở hiện trường hay đã được di chuyển đến gara hay nơi nào khác?"

📚 详细文档

使用场景

实时转录：实时字幕、会议、访谈等任何对速度有要求的场景。
语音助手：构建响应迅速且准确的语音控制应用程序。
媒体字幕：快速准确地为视频和播客生成字幕。
无障碍工具：帮助听力障碍人士。
语言学习：练习发音并获得即时反馈。
多语言通信：与即将推出的EraX翻译器（约100ms/句延迟）结合使用，打造完整的多语言通信平台。可用于国际会议的即时翻译，甚至是旅行应用程序。

局限性

该模型是基于成人语音进行训练的，可能难以处理婴儿的高音哭声或非常安静的低语。（我们正在努力改进！）请在合适的场景中使用。

参与贡献

我们热衷于让语音识别技术惠及每个人。我们鼓励你：

试用：下载模型并进行测试。
提供反馈：告诉我们哪些方面有效，哪些方面需要改进，以及你希望看到哪些功能。（批评时请温柔一些；我们很敏感！ 😉）
贡献代码：如果你是开发者，考虑为项目做出贡献。

EraX团队致力于不断改进我们的模型。请关注未来的更新和更多令人兴奋的发展！

📄 许可证

本项目遵循MIT许可协议，与Whisper的许可协议一致。

📚 引用

如果你发现我们的项目有用，请给我们的仓库点个星，并按以下方式引用我们的工作：

@article{title={EraX-WoW-Turbo-V1.1-CT2: Lắng nghe để Yêu thương.},
  author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
  organization={EraX},
  year={2025},
  url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1-CT2}
}