wav2vec2-large-xlsr-53-th-cv8-deepcut开源泰语语音识别模型，精准识别超实用！

首页

Wav2vec2 Large Xlsr 53 Th Cv8 Deepcut

由 wannaphong 开发

该模型是基于CommonVoice V8数据集训练的泰语自动语音识别模型，结合了deepcut分词器和语言模型以提高识别准确率。

语音识别

Transformers

其他开源协议:Apache-2.0 #泰语语音识别 #低词错误率 #deepcut分词

下载量 504

发布时间 : 6/7/2022

模型简介

该模型使用泰语CommonVoice V8数据集对wav2vec2-large-xlsr-53进行微调，专门用于泰语语音识别任务，支持deepcut分词器并整合了语言模型以提高性能。

模型特点

结合语言模型

整合语言模型显著提高了识别准确率，在测试集上WER降低约3%。

支持多种分词器

支持deepcut和newmm两种泰语分词器，可根据需求选择最佳分词方式。

多数据集训练

结合CommonVoice V7和V8数据集进行训练，提高了模型泛化能力。

模型能力

泰语语音识别

支持多种分词方式

高准确率语音转文本

使用案例

语音转写

泰语语音转录

将泰语语音内容转换为文本

在CommonVoice V8测试集上达到9.61% WER

语音助手

泰语语音指令识别

用于泰语语音助手的指令识别系统

🚀 泰语Wav2Vec2与CommonVoice V8（deepcut分词器）+ 语言模型

本模型旨在解决泰语自动语音识别的问题，通过结合CommonVoice V8数据集和语言模型，提升了语音识别的准确性和效率，为泰语语音处理提供了更强大的工具。

✨ 主要特性

基于CommonVoice V8数据集进行训练，增加了来自CommonVoice V7数据集的数据。
微调了wav2vec2-large-xlsr-53模型。
使用deepcut分词器进行预分词。

📦 安装指南

文档未提供具体安装步骤，故跳过此章节。

📚 详细文档

模型描述

技术报告：Thai Wav2Vec2.0 with CommonVoice V8

数据集

本模型在Common Voice V7数据集的基础上增加了Common Voice V8数据集的新数据，或者在分割Common Voice V8数据集之前移除Common Voice V7数据集中的所有数据，然后再将CommonVoice V7数据集添加回数据集中。

使用ekapolc/Thai_commonvoice_split脚本对Common Voice数据集进行分割。

模型

本模型使用泰语Common Voice V8数据集对wav2vec2-large-xlsr-53模型进行微调，并使用deepcut.tokenize进行预分词。

评估

使用CommonVoice V8测试集进行测试

模型	newmm的WER (%)	deepcut的WER (%)	CER
AIResearch.in.th和PyThaiNLP	17.414503	11.923089	3.854153
带deepcut的wav2vec2	16.354521	11.424476	3.684060
带newmm的wav2vec2	16.698299	11.436941	3.737407
带deepcut + 语言模型的wav2vec2	12.630260	9.613886	3.292073
带newmm + 语言模型的wav2vec2	12.583706	9.598305	3.276610

使用CommonVoice V7测试集进行测试（与CV V7的测试相同）

模型	newmm的WER (%)	deepcut的WER (%)	CER
AIResearch.in.th和PyThaiNLP	13.936698	9.347462	2.804787
带deepcut的wav2vec2	12.776381	8.773006	2.628882
带newmm的wav2vec2	12.750596	8.672616	2.623341
带deepcut + 语言模型的wav2vec2	9.940050	7.423313	2.344940
带newmm + 语言模型的wav2vec2	9.559724	7.339654	2.277071

此测试使用了来自https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th的相同测试集。

链接：

GitHub数据集：https://github.com/wannaphong/thai_commonvoice_dataset
技术报告：Thai Wav2Vec2.0 with CommonVoice V8

🔧 技术细节

文档未提供具体技术细节，故跳过此章节。

📄 许可证

本模型采用Apache 2.0许可证。

📖 BibTeX引用和引用信息

@misc{phatthiyaphaibun2022thai,
      title={Thai Wav2Vec2.0 with CommonVoice V8}, 
      author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
      year={2022},
      eprint={2208.04799},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}