W

Wav2vec2 Large Xlsr 53 German Gpt2

由 jsnfly 开发
这是一个基于MOZILLA-FOUNDATION/COMMON_VOICE_7_0德语数据集训练的自动语音识别编码器-解码器模型,结合了Wav2Vec2和GPT2架构的优势。
下载量 28
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型用于德语自动语音识别任务,通过结合Wav2Vec2的编码器能力和GPT2的解码器能力,实现高效的语音转文本功能。

模型特点

两阶段训练
先微调交叉注意力权重和解码器,再进行端到端微调,平衡训练效率和模型性能
位置嵌入优化
向编码器输出添加位置嵌入并用GPT2预训练的位置嵌入初始化,显著提升性能
资源高效
第一阶段训练适用于小型GPU(如8GB显存),便于资源有限的场景使用

模型能力

德语语音识别
高精度语音转文本

使用案例

语音转录
德语语音转文字
将德语语音内容转换为文本
在Common Voice 7德语测试集上达到10.02%的词错误率(WER)
语音助手
德语语音指令识别
识别和理解德语语音指令