wav2vec2-xlsr-300m-german-truecase开源模型 - 免费实现德语语音识别并保留大小写

首页

Wav2vec2 Xlsr 300m German Truecase

由 abnerh 开发

基于Facebook的wav2vec2-xls-r-300m模型，在Common Voice德语数据集上微调，支持德语语音识别并保留文本大小写信息。

语音识别

Transformers

#德语语音识别 #真实大小写输出 #16kHz采样率

下载量 16

发布时间 : 3/2/2022

模型简介

该模型是一个德语自动语音识别(ASR)系统，特别处理了德语中的大小写问题，可直接输出符合德语语法的大小写文本，无需后处理。

模型特点

真实大小写处理

模型直接学习德语大小写规则，输出符合语法的大小写文本，无需额外后处理

基于Common Voice微调

使用高质量的开源德语语音数据集进行微调，提升德语识别准确率

16kHz采样率支持

优化处理16kHz采样率的语音输入，适合常见语音应用场景

模型能力

德语语音转文本

自动大小写转换

连续语音识别

使用案例

语音转录

会议记录自动化

将德语会议录音自动转为带正确大小写的文字记录

减少人工转录工作量，保持专业文档格式

字幕生成

为德语视频内容生成带正确大小写的字幕

提高字幕专业性和可读性

语音助手

德语语音指令识别

在智能家居或客服系统中识别德语语音命令

准确理解包含大小写差异的德语指令

🚀 德语微调版Wav2Vec2-XLS-R-300m模型

本项目基于Common Voice数据集，对facebook/wav2vec2-xls-r-300m模型进行德语微调。使用该模型时，请确保输入的语音采样率为16kHz。

在德语中，大小写区分十分重要（例如 “Sie” 和 “sie”）。为了让模型能够学习正确的大小写，我使用了包含大小写字母的词汇表来训练模型，这样就无需进行诸如真大小写处理（truecasing）之类的后处理操作。

🚀 快速开始

代码示例

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch

# 加载模型和处理器
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")

speech, sr = sf.read('audio.wav') 
# 进行分词
input_values = processor(speech, return_tensors="pt", padding="longest").input_values  # 批量大小为1

# 获取对数概率
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# 打印转录结果
print(transcription)

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch

# 加载模型和处理器
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")

speech, sr = sf.read('audio.wav') 
# 进行分词
input_values = processor(speech, return_tensors="pt", padding="longest").input_values  # 批量大小为1

# 获取对数概率
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# 打印转录结果
print(transcription)

高级用法

目前暂无高级用法示例，你可以基于上述基础用法进行拓展。

📚 详细文档

预测结果对比

参考文本	预测文本
Die zoologische Einordnung der Spezies ist seit Jahrzehnten umstritten	Die psoologische Einordnung der Spezies ist seit Jahrzehnten umstritten
Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland	Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland
Er vertrat den Wahlkreis Donauwörth im Parlament	Er vertrat den Wahlkreis DonauWört im Parlament
Ich bin gespannt welche Lieder sie wählt	Ich bin gespannt welche Lieder see wählt
Eine allgemein verbindliche Definition gibt es nicht	Eine allgemeinverbindliche Definition gibt es nicht