标签:
- 训练生成
模型索引:
- 名称: wav2vec2-russian
结果: []
小部件:
- 示例: https://cdn-media.huggingface.co/speech_samples/common_voice_ru_18849022.mp3
wav2vec2-russian
用于音频识别的模型。模型输出结果可进一步通过我的文本纠错网络UrukHan/t5-russian-spell进行处理。
wav2vec2原始输出 |
纠错后输出 |
ывсем привет выныканалетоп армии и это двадцать пятый день спец операций на украине ет самый главной новости российские военные ракетами кинжалы калибр уничтожили крупную военную топливную базу украины ракетным ударом по населенному пункту под жетамиром уничтжены более стаукраинских военных в две тысячи двадцать втором году |
Всем привет! Вы в курсе новостей от армии. И это 25 день спецопераций на Украине. Есть самые главные новости. Российские военные ракетами «Кинжалы» и «Кинжалы» калибра уничтожили крупную военную топливную базу Украины. Ракетным ударом по населенному пункту под Жетамиром уничтожены более ста украинских военных в 2022г. |
请上传wav格式的音频文件进行识别。识别结果可通过我的另一网络进行修正,该网络能纠正错误、添加标点并修正数字格式。访问地址:https://huggingface.co/UrukHan/t5-russian-spell
运行网络 示例参见Colab笔记本 https://colab.research.google.com/drive/1dVZvccYJq02hmEsapWgmuJ-pLdezFnn1?usp=sharing
from transformers import AutoModelForCTC, Wav2Vec2Processor
model = AutoModelForCTC.from_pretrained("UrukHan/wav2vec2-russian")
processor = Wav2Vec2Processor.from_pretrained("UrukHan/wav2vec2-russian")
def map_to_result(batch):
with torch.no_grad():
input_values = torch.tensor(batch["input_values"]).unsqueeze(0)
logits = model(input_values).logits
pred_ids = torch.argmax(logits, dim=-1)
batch = processor.batch_decode(pred_ids)[0]
return batch
map_to_result()
模型训练与数据处理及数据集创建详解请参考Colab笔记本:
https://colab.research.google.com/drive/1zkCA2PtKxD2acqLr55USh35OomoOwOhm?usp=sharing