w2v-bert-uk-v2.1开源乌克兰语语音识别模型

首页

W2v Bert Uk V2.1

由 Yehor 开发

基于facebook/w2v-bert-2.0的乌克兰语语音识别模型，在Yehor/openstt-uk数据集上微调

语音识别

Transformers

其他开源协议:Apache-2.0 #乌克兰语语音识别 #低词错误率(WER)#高字符准确率

下载量 492

发布时间 : 8/7/2024

模型简介

乌克兰语自动语音识别(ASR)模型，能够将乌克兰语语音转换为文本

模型特点

高准确率

在Common Voice乌克兰语测试集上达到17.34%的词错误率和3.33%的字符错误率

优化推理

支持FP16精度推理，可在GPU上高效运行

社区支持

拥有活跃的乌克兰语语音技术社区支持

模型能力

乌克兰语语音识别

音频转文本

支持16kHz采样率音频处理

使用案例

语音转录

会议记录转录

将乌克兰语会议录音转换为文字记录

准确率82.66%

媒体字幕生成

为乌克兰语视频内容自动生成字幕

字符准确率96.67%

🚀 w2v-bert-uk `v2.1`

w2v-bert-uk v2.1 是一款用于乌克兰语自动语音识别的模型，基于 facebook/w2v-bert-2.0 基础模型构建，在相关数据集上取得了良好的指标表现，可通过特定代码示例进行使用。

🚀 快速开始

安装依赖

# pip install -U torch soundfile transformers

代码示例

import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor

# Config
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0' # or cpu
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000

# Load the model
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)

paths = [
  'sample1.wav',
]

# Extract audio
audio_inputs = []
for path in paths:
  audio_input, _ = sf.read(path)
  audio_inputs.append(audio_input)

# Transcribe the audio
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)

with torch.inference_mode():
  logits = asr_model(features).logits

predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)

# Log results
print('Predictions:')
print(predictions)

✨ 主要特性

多渠道社区支持：提供 Discord 社区以及语音识别和语音合成的 Telegram 群组，方便用户交流。
可参考其他模型：提供了其他乌克兰语语音识别模型的链接，便于用户拓展使用。
可视化演示：可通过 Hugging Face 的特定空间查看模型对音频的处理效果。

📦 安装指南

pip install -U torch soundfile transformers

💻 使用示例

基础用法

# pip install -U torch soundfile transformers

import torch
import soundfile as sf
from transformers import AutoModelForCTC, Wav2Vec2BertProcessor

# Config
model_name = 'Yehor/w2v-bert-uk-v2.1'
device = 'cuda:0' # or cpu
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
sampling_rate = 16_000

# Load the model
asr_model = AutoModelForCTC.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)
processor = Wav2Vec2BertProcessor.from_pretrained(model_name)

paths = [
  'sample1.wav',
]

# Extract audio
audio_inputs = []
for path in paths:
  audio_input, _ = sf.read(path)
  audio_inputs.append(audio_input)

# Transcribe the audio
inputs = processor(audio_inputs, sampling_rate=sampling_rate).input_features
features = torch.tensor(inputs).half().to(device)

with torch.inference_mode():
  logits = asr_model(features).logits

predicted_ids = torch.argmax(logits, dim=-1)
predictions = processor.batch_decode(predicted_ids)

# Log results
print('Predictions:')
print(predictions)

📚 详细文档

社区交流

Discord：点击加入
语音识别 Telegram 群组：点击加入
语音合成 Telegram 群组：点击加入

查看其他乌克兰语模型：点击查看

模型概述

这是 https://huggingface.co/Yehor/w2v-bert-uk 的下一代模型。

指标

AM (F16)：
- 词错误率（WER）：0.1734（17.34%）
- 字符错误率（CER）：0.0333（3.33%）
- 单词准确率：82.66%
- 字符准确率：96.67%

演示

使用 https://huggingface.co/spaces/Yehor/w2v-bert-uk-v2.1-demo 空间查看模型如何处理你的音频。

模型信息表格

属性	详情
基础模型	facebook/w2v-bert-2.0
库名称	transformers
语言	乌克兰语（uk）
许可证	apache-2.0
任务类别	自动语音识别
标签	音频
数据集	Yehor/openstt-uk
评估指标	词错误率（wer）
模型名称	w2v-bert-uk-v2.1
任务结果数据集	common_voice_10_0（乌克兰语测试集）
任务结果指标（WER）	17.34
任务结果指标（CER）	3.33

📄 许可证

本模型使用 apache-2.0 许可证。

🔗 引用

@misc {smoliakov_2025,
	author       = { {Smoliakov} },
	title        = { w2v-bert-uk-v2.1 (Revision 094c59d) },
	year         = 2025,
	url          = { https://huggingface.co/Yehor/w2v-bert-uk-v2.1 },
	doi          = { 10.57967/hf/4554 },
	publisher    = { Hugging Face }
}