🚀 越南语语音识别模型 - ViWhisper
本项目发布了一个用于越南语语音识别任务的新模型。基于openai/whisper-medium
模型,在新数据集VietSpeech
上进行微调,以实现更精准的越南语语音识别。
🚀 快速开始
本项目旨在提供一个高效准确的越南语语音识别模型。通过微调openai/whisper-medium
模型,在多个越南语语音数据集上进行训练,以达到更好的识别效果。
✨ 主要特性
- 新模型发布:针对越南语语音识别任务,发布了全新的模型。
- 微调优化:在新数据集
VietSpeech
上对openai/whisper-medium
进行微调,提升识别性能。
📦 安装指南
文档未提供安装步骤,此部分跳过。
💻 使用示例
基础用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa
processor = WhisperProcessor.from_pretrained("NhutP/ViWhisper-medium")
model = WhisperForConditionalGeneration.from_pretrained("NhutP/ViWhisper-medium")
prefix_ids = model.generation_config.forced_decoder_ids
model.generation_config.input_ids = prefix_ids
model.generation_config.forced_decoder_ids = None
array, sampling_rate = librosa.load('path_to_audio', sr = 16000)
input_features = processor(array, sampling_rate=sampling_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
高级用法
from transformers import pipeline
pipe = pipeline(
"automatic-speech-recognition",
model="NhutP/ViWhisper-medium",
max_new_tokens=128,
chunk_length_s=30,
return_timestamps=False,
device= '...'
)
output = pipe(path_to_audio_samplingrate_16000)['text']
📚 详细文档
训练数据
* 我们使用文本转语音模型来生成包含数据集中未出现单词的句子。
WER 结果
🔧 技术细节
文档未提供技术实现细节,此部分跳过。
📄 许可证
本项目采用 MIT 许可证。
📚 引用
@misc{VSV-1100,
author = {Pham Quang Nhut and Duong Pham Hoang Anh and Nguyen Vinh Tiep},
title = {VSV-1100: Vietnamese social voice dataset},
url = {https://github.com/NhutP/VSV-1100},
year = {2024}
}
如果您觉得我们的项目有用,请在 GitHub 上给我们一个 star:https://github.com/NhutP/ViWhisper
联系邮箱:22521061@gm.uit.edu.vn (Pham Quang Nhut)