模型简介
模型特点
模型能力
使用案例
数据集:
- CoRal-project/coral-v2 语言:
- da 基础模型:
- facebook/wav2vec2-xls-r-300m 评估指标:
- wer
- cer 许可证: openrail 管道标签: 自动语音识别 模型索引:
- 名称: roest-wav2vec2-315m-v2
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: CoRal朗读
类型: alexandrainst/coral
分割: 测试
参数: read_aloud
指标:
- 类型: cer 值: 6.5% ± 0.2% 名称: CER
- 类型: wer 值: 16.3% ± 0.4% 名称: WER
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: CoRal朗读
类型: alexandrainst/coral
分割: 测试
参数: read_aloud
指标:
Røst-wav2vec2-315m-v2
这是丹麦最先进的语音识别模型,由Alvenir作为CoRal项目的一部分训练而成。
此存储库包含一个基于即将发布的CoRal-v2数据集训练的Wav2Vec2模型。
CoRal-v2数据集包含丰富多样的丹麦对话和朗读数据,涵盖不同年龄组、性别和方言。
该模型专为自动语音识别(ASR)设计。
在我们的交互式演示中试用吧!
快速开始
首先安装所需的库:
$ pip install transformers kenlm pyctcdecode
接下来,您可以使用transformers
Python包如下使用模型:
>>> from transformers import pipeline
>>> audio = get_audio() # 16kHz原始音频数组
>>> transcriber = pipeline(model="CoRal-project/roest-wav2vec2-315m-v2")
>>> transcriber(audio)
{'text': '您的转录文本'}
转录示例
探索以下音频样本及其转录文本和准确度指标。每个示例展示了模型在不同丹麦方言下的表现。
示例1 - 西日德兰方言
音频样本:
模型转录:
det blev til yderlig ti mål i den første sæson på trods af en position som back
目标转录:
det blev til yderligere ti mål i den første sæson på trods af en position som back
- 字符错误率 (CER): 3.7%
- 单词错误率 (WER): 5.9%
示例2 - 南日德兰方言
音频样本:
模型转录:
en arkitektoniske udformning af pladser forslagene iver benzen
目标转录:
den arkitektoniske udformning af pladsen er forestået af ivar bentsen
- 字符错误率 (CER): 20.3%
- 单词错误率 (WER): 60.0%
示例3 - 北西兰方言
音频样本:
模型转录:
østrig og ungarn samarbejder om søen gennem den østrigske og ungarske vandkommission
目标转录:
østrig og ungarn samarbejder om søen gennem den østrigske og ungarske vandkommission
- 字符错误率 (CER): 0.0%
- 单词错误率 (WER): 0.0%
示例4 - 洛兰方言
音频样本:
模型转录:
det er produceret af thomas helme og indspillede i easy sound recording studio i københavn
目标转录:
det er produceret af thomas helmig og indspillet i easy sound recording studio i københavn
- 字符错误率 (CER): 4.4%
- 单词错误率 (WER): 13.3%
模型详情
Wav2Vec2是一种最先进的语音识别模型架构,利用原始音频数据进行自监督学习。预训练的Wav2Vec2-XLS-R-300M已针对自动语音识别进行了微调,使用了CoRal-v2数据集,以增强其在识别丹麦语音时对不同方言的考虑。模型通过运行CoRaL存储库中的训练设置进行了30K步的训练:
python src/scripts/finetune_asr_model.py \
model=wav2vec2-small \
max_steps=30000 \
datasets.coral_conversation_internal.id=CoRal-project/coral-v2 \
datasets.coral_readaloud_internal.id=CoRal-project/coral-v2
模型使用语言模型(LM)作为后处理进行评估。
所使用的LM是由CoRal-project/roest-wav2vec2-315m-v1训练和使用的。
模型在CoRal-v2数据集上训练,包括对话和朗读子集。
该数据集包含丹麦语音,涵盖多种方言、年龄组和性别区分。
请注意,该数据集以及此模型采用自定义许可证,基于OpenRAIL-M,允许商业使用,但有一些限制(语音合成和生物识别) - 参见许可证。
评估
模型使用以下指标进行评估:
- 字符错误率 (CER): 错误转录的字符百分比。
- 单词错误率 (WER): 错误转录的单词百分比。
CoRal对话性能
模型首先在CoRal-v2对话数据集的暂定版本上进行了评估。
由于测试集仅包含5个独特说话者,其中4位为女性,因此结果是暂定的。
测试集包括2位“菲英岛”方言说话者,1位“南日德兰”方言,1位“非母语”和1位“北日德兰”方言。
请注意,针对朗读数据训练的模型在对话数据上的高泛化误差仍在分析中。
模型 | 参数数量 | 微调数据类型 | CoRal-v2::对话 CER | CoRal-v2::对话 WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 23.9% | 36.7% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗读和对话 | 24.2% | 37.7% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗读 | 138% | 121% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 123% | 80.5% |
mhenrichsen/hviske-v2 | 1540M | 朗读 | 78.2% | 72.6% |
openai/whisper-large-v3 | 1540M | - | 46.4 % | 57.4% |


CoRal朗读性能
模型 | 参数数量 | 微调数据类型 | CoRal CER | CoRal WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗读和对话 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗读 | 4.3% ± 0.2% | 10.4% ± 0.3% |
CoRal-project/roest-wav2vec2-315M-v1 | 315M | 朗读 | 6.6% ± 0.2% | 17.0% ± 0.4% |
mhenrichsen/hviske-v2 | 1540M | 朗读 | 4.7% ± 0.2% | 11.8% ± 0.3% |
openai/whisper-large-v3 | 1540M | - | 11.4% ± 0.3% | 28.3% ± 0.6% |
注意! hviske-v2的基准已重新评估,置信区间比模型卡中报告的要大。


CoRal测试数据上按人口统计的详细CER分数(%)
类别 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 5.1 | 7.4 | 7.2 | 7.3 |
男性 | 3.6 | 5.8 | 5.7 | 5.8 |
0-25岁 | 3.4 | 5.4 | 5.3 | 5.1 |
25-50岁 | 4.0 | 6.2 | 6.0 | 5.7 |
50岁以上 | 5.0 | 7.5 | 7.4 | 7.8 |
博恩霍尔姆方言 | 3.8 | 6.8 | 6.1 | 6.2 |
菲英岛方言 | 5.1 | 7.4 | 7.2 | 6.9 |
哥本哈根方言 | 1.9 | 3.3 | 3.2 | 3.0 |
非母语 | 4.8 | 7.8 | 7.5 | 7.3 |
北日德兰方言 | 1.6 | 2.6 | 2.8 | 2.6 |
西兰方言 | 3.0 | 4.4 | 4.5 | 3.9 |
南岛方言 | 4.1 | 6.4 | 6.4 | 6.5 |
南日德兰方言 | 8.8 | 11.9 | 11.6 | 12.6 |
西日德兰方言 | 6.4 | 10.1 | 9.8 | 10.5 |
东日德兰方言 | 2.6 | 4.0 | 4.1 | 3.8 |
总体 | 4.3 | 6.6 | 6.5 | 6.5 |
CoRal测试数据上按人口统计的详细WER分数(%)
类别 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 11.5 | 18.5 | 17.7 | 17.8 |
男性 | 9.4 | 15.5 | 14.9 | 15.0 |
0-25岁 | 9.0 | 14.7 | 14.0 | 13.7 |
25-50岁 | 10.1 | 16.6 | 15.8 | 15.3 |
50岁以上 | 11.3 | 18.2 | 17.7 | 18.5 |
博恩霍尔姆方言 | 9.8 | 17.7 | 15.7 | 16.4 |
菲英岛方言 | 12.1 | 18.3 | 17.7 | 16.7 |
哥本哈根方言 | 5.9 | 10.2 | 10.0 | 9.5 |
非母语 | 12.2 | 20.9 | 19.4 | 19.4 |
北日德兰方言 | 4.5 | 7.7 | 7.5 | 7.3 |
西兰方言 | 7.6 | 12.6 | 12.7 | 11.0 |
南岛方言 | 10.0 | 14.9 | 15.3 | 14.4 |
南日德兰方言 | 17.5 | 26.0 | 25.4 | 27.8 |
西日德兰方言 | 15.0 | 26.3 | 25.2 | 26.7 |
东日德兰方言 | 7.5 | 11.7 | 11.3 | 10.8 |
总体 | 10.4 | 17.0 | 16.3 | 16.4 |
使用和不使用语言模型的Røst-wav2vec2实验
后处理语言模型的加入可以显著影响性能。
Røst-v1和Røst-v2模型使用相同的语言模型(LM)。
所使用的LM是由CoRal-project/roest-wav2vec2-315m-v1训练和使用的。
模型 | 参数数量 | 微调数据类型 | 使用语言模型后处理 | CoRal CER | CoRal WER |
---|---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 是 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 否 | 8.1% ± 0.2% | 23.9% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗读和对话 | 是 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 | 315M | 朗读和对话 | 否 | 8.2% ± 0.2% | 25.1% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 是 | 6.6% ± 0.2% | 17.0% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 否 | 8.6% ± 0.2% | 26.3% ± 0.5% |
以下是Røst-Wav2Vec2-315m模型在测试集上不同丹麦方言的结果:
Røst-v1 | Røst-v1 | Røst-v2 | Røst-v2 | |||||
---|---|---|---|---|---|---|---|---|
LM | 否 | 是 | 否 | 是 | ||||
------------- | --------- | --------- | --------- | --------- | --------- | --------- | --------- | --------- |
方言 | CER (%) | WER (%) | CER (%) | WER (%) | CER (%) | WER (%) | CER (%) | WER (%) |
西日德兰 | 12.7 | 37.1 | 10.1 | 26.3 | 12.2 | 36.3 | 9.82 | 25.2 |
南日德兰 | 14.7 | 37.8 | 11.9 | 26.0 | 14.2 | 36.2 | 11.6 | 25.4 |
博恩霍尔姆 | 9.32 | 29.9 | 6.79 | 17.7 | 8.08 | 26.7 | 6.12 | 15.7 |
东日德兰 | 5.51 | 18.7 | 3.97 | 11.7 | 5.39 | 18.0 | 4.06 | 11.3 |
北日德兰 | 3.86 | 13.6 | 2.57 | 7.72 | 3.80 | 13.5 | 2.75 | 7.51 |
哥本哈根 | 5.27 | 18.8 | 3.31 | 10.2 | 5.02 | 17.7 | 3.20 | 9.98 |
菲英岛 | 9.41 | 28.6 | 7.43 | 18.3 | 8.86 | 27.0 | 7.20 | 17.7 |
非母语 | 10.6 | 33.2 | 7.84 | 20.9 | 10.0 | 31.6 | 7.46 | 19.4 |
西兰 | 5.82 | 19.5 | 4.44 | 12.6 | 5.70 | 18.6 | 4.48 | 12.7 |
南岛 | 7.09 | 20.7 | 6.38 | 14.9 | 6.96 | 20.4 | 6.44 | 15.3 |
在其他数据集上的性能
模型还在其他数据集上进行了测试以评估泛化能力:
Røst-whisper-large-v1 | Røst-wav2vec2-315M-v1 | Røst-wav2vec2-315M-v2 | Røst-wav2vec2-1B-v2 | |||||
---|---|---|---|---|---|---|---|---|
评估数据集 | WER % | CER % | WER % | CER % | WER % | CER % | WER % | CER % |
CoRal | 10.4 | 4.3 | 17.0 | 6.6 | 16.3 | 6.5 | 16.4 | 6.5 |
NST-da | 29.8 | 14.5 | 29.7 | 13.9 | 26.1 | 11.9 | 12.4 | 4.9 |
CommonVoice17 | 15.6 | 8.2 | 16.7 | 6.6 | 14.4 | 5.4 | 26.3 | 10.9 |
Fleurs-da_dk | 12.6 | 5.1 | 16.6 | 6.3 | 15.6 | 6.1 | 13.7 | 5.5 |
注意! 训练词汇包括数字(0,1,2,...,9),这些数字在后处理步骤中被转换为文本。如果模型遗漏空格,数字将被解释为一个整体,这尤其影响NST分数,因为该数据集包含许多数字。
关于比较Whisper和Wav2Vec2模型的说明
本模型卡中详述的Whisper模型在字符错误率(CER)和单词错误率(WER)方面显著低于Wav2Vec2模型。
Whisper采用基于transformer的架构,具有增强上下文理解的附加层。
相比之下,Wav2Vec2模型使用较短的上下文窗口,专注于声音预测。
Røst-Wav2Vec2模型在后处理中引入了简单的语言模型,基于统计语言模式解决错误。
引入更复杂的上下文后处理语言模型可能使这些模型类型之间的比较更加公平,CoRal项目计划在未来的版本中探索这一点。
Røst-Whisper模型在朗读数据中表现出色,利用其嵌入式上下文框架在此上下文中实现更稳健的识别。
然而,Wav2Vec2模型在各种语音识别任务中表现出更好的泛化能力,而Whisper模型在对话数据中错误率更高。
需要注意的是,CoRal-v2对话数据集是暂定的,且说话者多样性有限,可能会影响这些结果。
训练曲线

创建者和资助者
此模型由Alvenir的Marie Juhl Jørgensen和Søren Vejlgaard Holm训练,并由他们撰写模型卡。
CoRal项目由丹麦创新基金资助,包括以下合作伙伴:
我们特别感谢Alexandra Institute的Dan Saattrup Nielsen(除其他外)的存储库工作,以及Alexandra Institute的Simon Leminen Madsen的建模工作。
引用
@misc{roest-wav2vec2-315m-v2,
作者 = {Marie Juhl Jørgensen, Søren Vejlgaard Holm, Martin Carsten Nielsen, Dan Saattrup Nielsen, Sif Bernstorff Lehmann, Simon Leminen Madsen 和 Torben Blach},
标题 = {Røst-wav2vec-315m-v2: 基于多样人口统计和方言训练的丹麦最先进语音识别模型},
年份 = {2025},
网址 = {https://huggingface.co/CoRal-project/roest-wav2vec2-315m-v2},
}



