🚀 用于巴西葡萄牙语的Distil-Whisper-Large-v3
本模型是distil-whisper-large-v3的微调版本,用于巴西葡萄牙语的自动语音识别(ASR)。它结合了Common Voice 16数据集和使用Whisper Large v3转录的私有数据集进行训练,旨在高精度地完成巴西葡萄牙语的自动语音转录任务。
🚀 快速开始
你可以使用Transformers库来使用该模型:
from datasets import load_dataset
from transformers import WhisperProcessor, WhisperForConditionalGeneration
common_voice = load_dataset("mozilla-foundation/common_voice_11_0", "pt", split="validation")
processor = WhisperProcessor.from_pretrained("freds0/distil-whisper-large-v3-ptbr")
model = WhisperForConditionalGeneration.from_pretrained("freds0/distil-whisper-large-v3-ptbr")
sample = common_voice[0]
audio_input = sample["audio"]["array"]
sampling_rate = sample["audio"]["sampling_rate"]
input_features = processor(audio_input, sampling_rate=sampling_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print("Transcription:", transcription[0])
✨ 主要特性
- 高精度转录:通过结合Common Voice 16的数据和自动转录的私有数据集,该模型在Common Voice 16验证集上实现了8.221%的单词错误率(WER),能够高精度地完成巴西葡萄牙语的自动语音转录。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
from datasets import load_dataset
from transformers import WhisperProcessor, WhisperForConditionalGeneration
common_voice = load_dataset("mozilla-foundation/common_voice_11_0", "pt", split="validation")
processor = WhisperProcessor.from_pretrained("freds0/distil-whisper-large-v3-ptbr")
model = WhisperForConditionalGeneration.from_pretrained("freds0/distil-whisper-large-v3-ptbr")
sample = common_voice[0]
audio_input = sample["audio"]["array"]
sampling_rate = sample["audio"]["sampling_rate"]
input_features = processor(audio_input, sampling_rate=sampling_rate, return_tensors="pt").input_features
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print("Transcription:", transcription[0])
高级用法
文档未提及高级用法代码示例,暂不提供。
📚 详细文档
模型描述
该模型旨在高精度地完成巴西葡萄牙语的自动语音转录。通过将Common Voice 16的数据与自动转录的私有数据集相结合,该模型在Common Voice 16验证集上实现了8.221%的单词错误率(WER)。
属性 |
详情 |
模型类型 |
基于distil-whisper-large-v3的语音识别模型 |
语言(NLP) |
巴西葡萄牙语(pt-BR) |
许可证 |
MIT |
微调基础模型(可选) |
distil-whisper/distil-large-v3 |
📄 许可证
本模型使用的许可证为MIT。