库名称:peft
许可证:apache-2.0
基础模型:openai/whisper-large-v2
标签:
- 训练生成
- 多语言
- 语音识别
- 开源
语言:
- 沃洛夫语
- 法语
- 英语
模型索引:
- 名称:whosper-large-v2
结果:
- 任务:
名称:自动语音识别
类型:automatic-speech-recognition
数据集:
名称:测试集
类型:自定义
分割:测试
参数:
语言:wo
指标:
- 名称:测试WER
类型:wer
值:23.45
- 名称:测试CER
类型:cer
值:11.01
管道标签:automatic-speech-recognition
Whosper-large-v2
模型概述
Whosper-large-v2是一款专为塞内加尔主要语言沃洛夫语设计的尖端语音识别模型。基于OpenAI的Whisper-large-v2构建,该模型在词错误率(WER)和字符错误率(CER)方面显著提升,推动了非洲语言处理的发展。无论您是转录对话、构建语言学习工具还是进行研究,这款模型都适合处理沃洛夫语语音数据的研究人员、开发者和学生。
核心优势
- 卓越的语码转换:能自然处理沃洛夫语与法语/英语的混合,反映真实世界的语音模式
- 多语言支持:除沃洛夫语外,在法语和英语中表现同样出色
- 生产就绪:经过全面测试和优化,适合部署
- 开源:基于apache-2.0许可证发布,非常适合研究和开发
- 聚焦非洲自然语言处理:致力于实现更广泛的非洲语言支持目标
性能指标
数值越低意味着准确性越高——非常适合实际应用!
性能对比
指标 |
Whosper-large-v2 |
Whosper-large |
提升幅度 |
WER |
0.2345 |
0.2423 |
提升3.2% |
CER |
0.1101 |
0.1135 |
提升3.0% |
主要特点
局限性
训练数据
基于多样化的沃洛夫语语音数据训练:
- ALFFA公共数据集
- FLEURS数据集
- Bus Urbain数据集
- Anta Women TTS数据集
- Kallama数据集
这种多样性确保模型在以下方面表现出色:
- 说话风格和方言
- 语码转换模式
- 性别和年龄组
- 录音条件
快速入门指南
安装
pip install git+https://github.com/sudoping01/whosper.git
基本用法
from whosper import WhosperTranscriber
transcriber = WhosperTranscriber(model_id="CAYTU/whosper-large-v2")
result = transcriber.transcribe_audio("path/to/your/audio.wav")
print(result)
训练结果
训练损失 |
周期 |
步数 |
验证损失 |
0.7575 |
0.9998 |
2354 |
0.7068 |
0.6429 |
1.9998 |
4708 |
0.6073 |
0.5468 |
2.9998 |
7062 |
0.5428 |
0.4439 |
3.9998 |
9416 |
0.4935 |
0.3208 |
4.9998 |
11770 |
0.4600 |
0.2394 |
5.9998 |
14124 |
0.4490 |
框架版本
- PEFT:0.14.1.dev0
- Transformers:4.49.0.dev0
- PyTorch:2.5.1+cu124
- Datasets:3.2.0
- Tokenizers:0.21.0
为非洲自然语言处理贡献力量
Whosper-large-v2体现了我们对开放科学和推进非洲语言技术的承诺。我们相信,通过免费提供尖端的语音识别模型,可以加速整个非洲的自然语言处理发展。
加入我们,共同实现AI技术民主化:
- 开放科学:使用并基于我们的研究进行构建——所有代码、模型和文档均为开源
- 数据贡献:分享您的沃洛夫语语音数据集,帮助提升模型性能
- 研究合作:将Whosper集成到您的研究项目中并分享成果
- 社区建设:帮助我们创建非洲语言处理资源
- 教育影响:在教育环境中使用Whosper,培养下一代非洲AI研究人员
携手合作,我们可以确保非洲语言在AI技术的未来中占有一席之地。无论您是研究人员、开发者、教育工作者还是语言爱好者,您的贡献都能帮助弥合技术鸿沟。
许可证
Apache许可证2.0
该模型基于Apache 2.0许可证发布,旨在鼓励非洲语言技术的研究、商业使用和创新,同时确保适当的归属和专利保护。您可以自由地:
- 商业使用模型
- 修改和分发模型
- 创建衍生作品
- 将模型用于专利目的
选择Apache 2.0符合我们推动开放科学和非洲自然语言处理发展的目标,同时为社区提供必要的保护。
引用
@misc{whosper2025,
title={Whosper-large: 具备增强语码转换能力的沃洛夫语多语言ASR模型},
author={Seydou DIALLO},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/CAYTU/whosper-large},
version={1.0}
}
致谢
由Caytu RoboticsAI部门的Seydou DIALLO开发,基于OpenAI的Whisper-large-v2。特别感谢沃洛夫语社区和为推进非洲语言技术做出贡献的人们。
联系我们
如有任何问题或需要支持,请联系我们
邮箱:sdiallo@caytu.com