whisper-large-v3-lv-late-cv19开源模型 - 支持拉脱维亚语语音精准转文本

首页

Whisper Large V3 Lv Late Cv19

由 AiLab-IMCS-UL 开发

基于whisper-large-v3微调的拉脱维亚语自动语音识别模型，由AiLab.lv训练，支持拉脱维亚语语音转文本任务。

语音识别

Safetensors

其他开源协议:Apache-2.0 #拉脱维亚语音识别 #多领域适配 #低词错误率

下载量 162

发布时间 : 10/15/2024

模型简介

该模型是基于OpenAI的whisper-large-v3架构微调的拉脱维亚语自动语音识别(ASR)模型，专门针对拉脱维亚语优化，能够准确地将拉脱维亚语音频转换为文本。

模型特点

多数据集训练

结合Common Voice 19.0和LATE-Media 2.0两个数据集进行训练，总训练时长282.4小时。

多种量化版本

提供适用于whisper.cpp的GGML格式4位、5位和8位量化版本，以及CTranslate2的8位量化版本。

低词错误率

在Common Voice 19.0测试集上达到3.2%的词错误率(WER)，表现优异。

模型能力

拉脱维亚语语音识别

音频转文本

语音转录

使用案例

语音转录

广播内容转录

将拉脱维亚广播内容自动转录为文本

在LATE-Media测试集上达到12.8%的词错误率

通用语音转录

日常拉脱维亚语语音的转录

在Common Voice测试集上达到3.2%的词错误率

🚀 通用拉脱维亚语自动语音识别模型

这是一个针对拉脱维亚语微调的 whisper-large-v3 模型，由 AiLab.lv 使用两个通用语音数据集进行训练：Common Voice 19.0 中的拉脱维亚语部分，以及拉脱维亚语广播数据集 LATE-Media 的最新版本。

此版本的模型取代了之前的 whisper-large-v3-lv-late-cv17 模型。

我们还提供了适用于 whisper.cpp 的 GGML 格式的 4 位、5 位和 8 位量化版本的模型，以及适用于 CTranslate2 的 8 位量化版本。

📚 详细文档

训练

微调使用了 Hugging Face Transformers 库，并结合了修改后的 seq2seq 脚本。

属性	详情
训练数据	拉脱维亚语 Common Voice 19.0 训练集（VW 分割）：212.6 小时；LATE-Media 2.0 训练集：69.8 小时；总计：282.4 小时

评估

测试数据	字错率 (WER)	字符错误率 (CER)
拉脱维亚语 Common Voice 19.0 测试集（VW） - 格式化	4.8	1.6
拉脱维亚语 Common Voice 19.0 测试集（VW） - 归一化	3.2	1.0
LATE-Media 1.0 测试集 - 格式化	19.2	7.6
LATE-Media 1.0 测试集 - 归一化	12.8	5.3

拉脱维亚语 CV 19.0 测试集可在此处获取。 LATE-Media 1.0 测试集可在此处获取。

引用

如果您在研究中使用了此模型，请引用以下论文：

@inproceedings{dargis-etal-2024-balsutalka-lv,
  author = {Dargis, Roberts and Znotins, Arturs and Auzina, Ilze and Saulite, Baiba and Reinsone, Sanita and Dejus, Raivis and Klavinska, Antra and Gruzitis, Normunds},
  title = {{BalsuTalka.lv - Boosting the Common Voice Corpus for Low-Resource Languages}},
  booktitle = {Proceedings of the Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)},
  publisher = {ELRA and ICCL},
  year = {2024},
  pages = {2080--2085},
  url = {https://aclanthology.org/2024.lrec-main.187}
}