开源xlsr-timit-a0模型 - 将英语音频高效转换为音位表征！

首页

Xlsr Timit A0

由 KoelLabs 开发

基于XLSR预训练模型在TIMIT英语语料库上微调的音位转录模型，用于将英语音频转换为音位表征。

语音识别

Safetensors

英语#英语音位转录 #低CER识别 #TIMIT微调

下载量 17

发布时间 : 12/1/2024

模型简介

本模型专门用于英语音频的音位级自动语音识别(ASR)，可将语音信号转换为国际音标(IPA)符号序列。

模型特点

高精度音位转录

在TIMIT测试集上达到0.14的平均字符错误率(CER)

专业语音学标注

输出为国际音标(IPA)符号，适合语音学研究

轻量级微调

基于预训练XLSR模型进行高效微调，只需40个训练轮次

模型能力

英语语音识别

音位级转录

国际音标转换

使用案例

语音学研究

音位分析

自动生成语音样本的音位标注

提供精确到音位的语音分析结果

语音技术开发

ASR系统预训练

作为语音识别系统的音位特征提取器

提升下游ASR任务的性能

🚀 XLSR-TIMIT-B0：在TIMIT上微调用于音素转录

本项目的模型基于预训练的检查点，在TIMIT语料库上进行微调，能够将英语音频准确转录为音素表示，为语音处理和分析提供了有力支持。

🚀 快速开始

要使用此模型转录音频文件，可按以下步骤操作：

基础用法

from transformers import AutoModelForCTC, AutoProcessor
import torch

# 加载模型和处理器
model = AutoModelForCTC.from_pretrained("KoelLabs/xlsr-timit-b0")
processor = AutoProcessor.from_pretrained("KoelLabs/xlsr-timit-b0")

# 准备输入
audio_input = "path_to_your_audio_file.wav"  # 替换为你的文件路径
input_values = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values

# 获取对数概率
with torch.no_grad():
    logits = model(input_values).logits

# 解码预测结果
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)

✨ 主要特性

基于预训练检查点 ginic/hyperparam_tuning_1_wav2vec2-large-xlsr-buckeye-ipa 进行微调。
在 TIMIT Darpa English Corpus 上进行训练，可将英语音频转录为音素表示。

📚 详细文档

性能表现

训练损失：4.73
验证损失：1.048
测试结果（TIMIT测试集）：
- 平均加权距离：18.06
- 加权距离标准差：12.9
- 平均字符错误率（CER）：0.14
- 字符错误率标准差：0.07

模型信息

属性	详情
模型类型	基于预训练的Wav2Vec2-large-XLSR进行微调
训练轮数	40
学习率	5e-6
优化器	Adam
训练数据	TIMIT, Darpa English Corpus

示例输出

预测结果：lizteɪkðɪsdɹɾiteɪbklɔθiðiklinizfɹmi 真实结果：lizteɪkðɪsdɹɾiteɪbəklɔtiðiklinizfɹmi 加权特征编辑距离：7.875 字符错误率：0.0556
预测结果：ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiɾimpɛɾikoʊts 真实结果：ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiŋinpɛɾikoʊts 加权特征编辑距离：2.375 字符错误率：0.0588