这是一个针对加泰罗尼亚语优化的自动语音识别模型,基于OpenAI的Whisper-large-v3微调,由巴塞罗那超级计算中心开发。
下载量 122
发布时间 : 8/5/2024
模型介绍
内容详情
替代品
模型简介
该模型专门用于加泰罗尼亚语的自动语音识别任务,能够将加泰罗尼亚语音频转换为无标点的纯文本。
模型特点
高精度加泰罗尼亚语识别
在3CatParla测试集上达到0.96的WER(词错误率)
多方言支持
能够识别加泰罗尼亚语的不同方言变体
大规模训练数据
使用710小时的加泰罗尼亚语数据进行微调
模型能力
加泰罗尼亚语音频转录
自动语音识别
支持16kHz采样率音频处理
使用案例
语音转录
广播电视内容转录
将加泰罗尼亚语广播电视节目自动转录为文本
在3CatParla测试集上WER为0.96
方言语音识别
识别不同地区的加泰罗尼亚语方言
在不同方言测试集上WER在7.88-12.25之间
语言: ca 数据集:
- projecte-aina/3catparla_asr 标签:
- 音频
- 自动语音识别
- 加泰罗尼亚语
- whisper-large-v3
- projecte-aina
- 巴塞罗那超级计算中心
- bsc 许可证: apache-2.0 模型索引:
- 名称: whisper-large-v3-ca-3catparla
结果:
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 3CatParla (测试集)
类型: projecte-aina/3catparla_asr
分割: test
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 0.96
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 3CatParla (开发集)
类型: projecte-aina/3catparla_asr
分割: dev
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 0.92
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Mozilla Common Voice 17.0 (测试集)
类型: mozilla-foundation/common_voice_17_0
分割: test
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 10.32
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: Mozilla Common Voice 17.0 (开发集)
类型: mozilla-foundation/common_voice_17_0
分割: validation
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 9.26
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (巴利阿里女性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Balearic female
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 12.25
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (巴利阿里男性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Balearic male
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 12.18
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (中央区女性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Central female
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 8.51
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (中央区男性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Central male
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 8.73
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (北部女性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Northern female
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 8.09
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (北部男性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Northern male
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 8.28
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (西北部女性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Northwestern female
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 7.88
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (西北部男性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Northwestern male
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 8.44
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (瓦伦西亚女性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Valencian female
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 9.58
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: CV Benchmark Catalan Accents (瓦伦西亚男性)
类型: projecte-aina/commonvoice_benchmark_catalan_accents
分割: Valencian male
参数:
language: ca
指标:
- 名称: WER 类型: wer 值: 9.1 库名称: transformers
- 任务:
名称: 自动语音识别
类型: automatic-speech-recognition
数据集:
名称: 3CatParla (测试集)
类型: projecte-aina/3catparla_asr
分割: test
参数:
language: ca
指标:
whisper-large-v3-ca-3catparla
目录
论文
PDF: 3CatParla: 加泰罗尼亚语广播电视自动语音识别的新开源语料库
模型描述
"whisper-large-v3-ca-3catparla" 是一个适用于加泰罗尼亚语自动语音识别的声学模型。它是对模型 "openai/whisper-large-v3" 进行微调的结果,使用了来自西班牙巴塞罗那 Projecte AINA 发布的710小时加泰罗尼亚语数据。
预期用途与限制
该模型可用于加泰罗尼亚语的自动语音识别(ASR)。模型旨在将加泰罗尼亚语的音频文件转录为无标点符号的纯文本。
如何开始使用该模型
要查看更新且功能完整的代码版本,请参阅我们的 Notebook
安装
为了使用此模型,您可以安装 datasets 和 transformers:
创建虚拟环境:
python -m venv /path/to/venv
激活环境:
source /path/to/venv/bin/activate
安装模块:
pip install datasets transformers
推理
要使用此模型转录加泰罗尼亚语音频,可以按照以下示例:
#安装前提条件
pip install torch
pip install datasets
pip install 'transformers[torch]'
pip install evaluate
pip install jiwer
#此代码适用于GPU
#注意: load_metric 不再是 datasets 的一部分。
#您需要移除它并使用 evaluate 的 load 代替。
#(2024年11月注)
import torch
from transformers import WhisperForConditionalGeneration, WhisperProcessor
#加载处理器和模型。
MODEL_NAME="projecte-aina/whisper-large-v3-ca-3catparla"
processor = WhisperProcessor.from_pretrained(MODEL_NAME)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME).to("cuda")
#加载数据集
from datasets import load_dataset, load_metric, Audio
ds=load_dataset("projecte-aina/3catparla_asr",split='test')
#降采样至16kHz
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
#处理数据集
def map_to_pred(batch):
audio = batch["audio"]
input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
batch["reference"] = processor.tokenizer._normalize(batch['normalized_text'])
with torch.no_grad():
predicted_ids = model.generate(input_features.to("cuda"))[0]
transcription = processor.decode(predicted_ids)
batch["prediction"] = processor.tokenizer._normalize(transcription)
return batch
#进行评估
result = ds.map(map_to_pred)
#计算整体WER。
from evaluate import load
wer = load("wer")
WER=100 * wer.compute(references=result["reference"], predictions=result["prediction"])
print(WER)
测试结果: 0.96
训练详情
训练数据
用于创建该模型的具体数据集称为 "3CatParla"。
训练过程
该模型是通过遵循Hugging Face提供的此教程对模型 "openai/whisper-large-v3" 进行微调的结果。
训练超参数
- 语言: 加泰罗尼亚语
- 训练音频小时数: 710
- 学习率: 1.95e-07
- 采样率: 16000
- 训练批次大小: 32 (x4 GPUs)
- 梯度累积步数: 1
- 评估批次大小: 32
- 保存总数限制: 3
- 最大步数: 19842
- 预热步数: 1984
- 评估步数: 3307
- 保存步数: 3307
- 洗牌缓冲区大小: 480
引用
如果该模型对您的研究有所帮助,请引用以下工作:
@inproceedings{hernandez20243catparla,
title={3CatParla: A New Open-Source Corpus of Broadcast TV in Catalan for Automatic Speech Recognition},
author={Hern{\'a}ndez Mena, Carlos Daniel and Armentano Oller, Carme and Solito, Sarah and K{\"u}lebi, Baybars},
booktitle={Proc. IberSPEECH 2024},
pages={176--180},
year={2024}
}
附加信息
作者
微调过程由 巴塞罗那超级计算中心 的 语言技术部门 在2024年7月由 Carlos Daniel Hernández Mena 完成。
联系方式
如需更多信息,请发送电子邮件至 langtech@bsc.es。
版权
版权所有(c) 2024 巴塞罗那超级计算中心语言技术部门。
许可证
资助
这项工作由加泰罗尼亚政府通过 Aina项目 推动和
Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型,基于Common Voice 6.1数据集训练,支持葡萄牙语语音转文本。
语音识别
其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别
支持多种语言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别
Transformers

支持多种语言
W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入
语音识别
其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
语音识别
中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型,在Common Voice和CSS10数据集上训练,支持16kHz音频输入。
语音识别
其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率的语音输入
语音识别
日语
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基于Hugging Face预训练模型的文本与音频强制对齐工具,支持多种语言,内存效率高
语音识别
Transformers

支持多种语言
M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的阿拉伯语语音识别模型,在Common Voice和阿拉伯语语音语料库上训练
语音识别
阿拉伯语
W
jonatasgrosman
2.3M
37
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文