wav2vec2-xls-r-300m-cv8-turkish开源模型 - 精准实现土耳其语自动语音识别

首页

Wav2vec2 Xls R 300m Cv8 Turkish

由 mpoyraz 开发

基于facebook/wav2vec2-xls-r-300m微调的土耳其语自动语音识别模型，在Common Voice 8.0 TR数据集上训练

语音识别

Transformers

其他开源协议:Apache-2.0 #土耳其语语音识别 #低CER转录 #Common Voice优化

下载量 382

发布时间 : 3/2/2022

模型简介

该模型是针对土耳其语优化的自动语音识别(ASR)系统，基于wav2vec2-xls-r-300m架构微调，支持将土耳其语音频转换为文本

模型特点

高性能土耳其语识别

在Common Voice 8测试集上达到10.61%的WER和2.67%的CER

基于XLS-R架构

使用facebook的wav2vec2-xls-r-300m作为基础模型，具有强大的语音特征提取能力

自定义语言模型支持

基于土耳其语维基百科训练了N-gram语言模型，提升识别准确率

模型能力

土耳其语音频转文本

长音频处理(支持分块处理)

高精度语音识别

使用案例

语音转录

土耳其语语音转文字

将土耳其语语音内容转换为可编辑的文本格式

在标准测试集上达到90%以上的准确率

语音助手

土耳其语语音指令识别

为土耳其语语音助手提供核心识别能力

🚀 wav2vec2-xls-r-300m-cv8-turkish

本自动语音识别（ASR）模型解决了在土耳其语语音识别场景下缺乏高精度模型的问题，其价值在于基于预训练模型进行微调，能有效提升土耳其语语音识别的准确性和效率。

🚀 快速开始

本模型是基于 facebook/wav2vec2-xls-r-300m 在土耳其语上进行微调的版本。

✨ 主要特性

基于预训练模型微调，适配土耳其语语音识别。
支持多种数据集进行训练和评估。
训练过程中使用了自定义的预处理和加载步骤。

📦 安装指南

在运行评估之前，请安装 unicode_tr 包，它用于土耳其语文本处理。

💻 使用示例

基础用法

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv8-turkish --dataset mozilla-foundation/common_voice_8_0 --config tr --split test

高级用法

在 speech-recognition-community-v2/dev_data 数据集上进行评估：

python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv8-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📚 详细文档

训练和评估数据

用于微调的数据集如下：

Common Voice 8.0 TR 除 test 分割外的所有 validated 分割均用于训练。

训练过程

为支持上述数据集，执行了自定义的预处理和加载步骤，并使用 wav2vec2-turkish 仓库实现此目的。

训练超参数

用于微调的超参数如下：

学习率：2.5e-4
训练轮数：20
热身步数：500
冻结特征提取器
时间掩码概率：0.1
特征掩码概率：0.1
特征投影丢弃率：0.05
注意力丢弃率：0.05
最终丢弃率：0.1
激活丢弃率：0.05
每个设备的训练批次大小：8
每个设备的评估批次大小：8
梯度累积步数：8

框架版本

Transformers：4.17.0.dev0
Pytorch：1.10.1
Datasets：1.17.0
Tokenizers：0.10.3

语言模型

使用 KenLM 在土耳其语维基百科文章上训练了 N-gram 语言模型，并使用 ngram-lm-wiki 仓库生成 arpa LM 并将其转换为二进制格式。

评估结果

数据集	词错误率 (WER)	字符错误率 (CER)
Common Voice 8 TR test split	10.61	2.67
Speech Recognition Community dev data	36.46	12.38

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文