library_name: transformers
tags:
越南语
多语言
音频转文本
sp
语音转文字
ctranslate2
faster_whisper
license: mit
language:
vi
metrics:
词错率
双语评估替补
base_model:
openai/whisper-large-v3-turbo
pipeline_tag: 自动语音识别
EraX-WoW-Turbo V1.1-CT2:基于CTranslate2的Whisper Large-v3 Turbo越南语增强本地化版 🚀
(兑现承诺!MIT许可证 - 绝对、完全、彻底免费。)
准备好体验比喝了咖啡的猎豹还快的语音识别,其准确度足以打动你最挑剔的技术达人朋友。EraX-WoW-Turbo来了,它建立在已经令人印象深刻的Whisper Large-v3 Turbo之上,但加入了一种让它真正闪耀的秘制酱料。想象一下,Whisper Large-v3经过严格的训练和大量的浓缩咖啡后的样子。
有什么特别之处?
极速转录: 我们说的是实时 转录(借助神奇的CTranslate2库)。得益于Turbo架构的巧妙优化,这个模型处理30秒音频只需要约350毫秒。别再等待了;你的转录文本几乎会在你说完话之前就出现。(原来的Medium模型?愿它安息,它跟不上。)
多语言大师: EraX-WoW-Turbo不仅快,还是个语言通。我们在涵盖11种关键语言的多样化数据集上对其进行了微调:
越南语(来自8个地区的爱!我们没有忘记任何口音 😉)
英语(美国)
中文(普通话,tiếng phổ thông,中国)
粤语(tiếng Chợ Lớn)
印尼语(tiếng phổ cập nhất)
韩语
日语
俄语
德语
法语
荷兰语
我们相信这个选择为广泛的应用提供了坚实的基础。
值得信赖的准确度: 我们还在完善基准测试结果(即将发布!),但初步测试显示,包括具有挑战性的越南方言在内的主要语言中,词错率(WER)约为12%。这东西能听懂你,即使你有非常 浓重的地方口音。
精心训练: 模型在覆盖真实世界音频条件的庞大数据集(60万个样本,约1000小时)上进行了训练。噪音?没问题!
开源(MIT许可证): 随心所欲,没有限制。
试试看:
"Chị Lan Anh ơi, em xin lỗi vì sự cố mất sóng vừa rồi. Em đã ghi nhận được hầu hết thông tin rồi ạ. Bây giờ em muốn hỏi chị là hiện tại xe của chị đang ở đâu ạ? Xe vẫn còn ở hiện trường hay đã được di chuyển đến gara hay nơi nào khác?"
性能加速(CTranslate2)**
虽然EraX-WoW-Turbo已经快如闪电,但通过使用CTranslate2库(https://github.com/OpenNMT/CTranslate2 ),你可以解锁更快的 速度。我们说的是潜在的2.5倍加速!这使其成为需要绝对最低延迟应用的理想选择。
* 安装以下包
pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2
from faster_whisper import WhisperModel
model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"
from pydub import AudioSegment
def convert16k (audio_path ):
audio = AudioSegment.from_file(audio_path, format ="wav" )
audio = audio.split_to_mono()[0 ]
audio = audio.set_frame_rate(16000 )
audio.export("test.wav" , format ="wav" )
return True
fast_model = WhisperModel(model_path, device="cuda" , compute_type="bfloat16" , )
segments, info = fast_model.transcribe(test["path" ], beam_size=5 ,
language="vi" ,
temperature=0.0 ,
vad_filter=True ,
)
print ("检测到语言 '%s',概率为 %f" % (info.language, info.language_probability))
for segment in segments:
print ("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
应用场景
实时转录: 实时字幕、会议、采访...任何速度重要的场合。
语音助手: 构建响应迅速且准确的语音控制应用。
媒体字幕: 快速准确地为视频和播客生成字幕。
无障碍工具: 为听力障碍人士赋能。
语言学习: 练习发音并获得即时反馈。
结合我们即将推出的EraX翻译器(约100毫秒/句延迟),打造一个完整的多语言交流利器!想象一下国际会议的即时翻译,甚至是一个旅行应用。
局限性(诚实是最好的策略!)
不适合婴儿(或耳语): 这个模型是在成人语音上训练的。它可能 难以处理婴儿的高频哭声或非常安静的耳语。(我们正在努力改进!)所以请在合适的场景下使用。
参与进来!
我们热衷于让语音识别对每个人来说都触手可及。我们鼓励你:
试试看! 下载模型并测试它。
提供反馈: 告诉我们什么好用,什么不好用,以及你希望看到什么功能。(批评时温柔点;我们很敏感!😉)
贡献: 如果你是开发者,考虑为项目做贡献。
EraX团队致力于持续改进我们的模型。敬请期待未来的更新和更多令人兴奋的发展!EraX团队。
许可证:
引用 📝
如果你觉得我们的项目有用,我们会很感激你为我们的仓库点赞,并如下引用我们的工作:
@article{title={EraX-WoW-Turbo-V1.1-CT2: Lắng nghe để Yêu thương.},
author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
organization={EraX},
year={2025},
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1-CT2}
}