xlsr-timit-b0开源音位转录模型 - 免费部署实现英语音频转音位表征

首页

Xlsr Timit B0

由 KoelLabs 开发

基于TIMIT数据集微调的音位转录模型，可将英语音频转录为音位表征

语音识别

Safetensors

英语#英语音位转录 #高精度音标识别 #TIMIT数据集优化

下载量 40

发布时间 : 11/30/2024

模型简介

本模型基于预训练检查点ginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipa，通过DARPA TIMIT英语语料库微调，可将英语音频转录为音位表征。在英语音标转录任务上优于当前所有XLSR模型。

模型特点

高精度音位转录

在TIMIT测试集上达到平均0.113的字符错误率（CER）

英语优化

专门针对英语语音进行优化，音位转录准确率高

基于XLSR架构

基于强大的wav2vec2-large-xlsr架构，具有优秀的语音特征提取能力

模型能力

英语语音识别

音位转录

自动语音转写

使用案例

语音学研究

音位分析

用于语音学研究中的音位特征分析

提供准确的音位转录结果

语音技术开发

语音识别系统开发

作为语音识别系统的音位转录组件

提高系统对英语音位的识别准确率

🚀 XLSR-TIMIT-B0：针对音素转录在TIMIT上进行微调

本模型利用预训练检查点 ginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipa，并在 TIMIT Darpa英语语料库上进行微调，用于将英语音频转录为音素表示。

所有代码均可在 Github 上获取。

该模型在英语的xlsr国际音标转录方面优于当前所有同类模型。

✨ 主要特性

基于预训练模型微调，在TIMIT语料库上进行针对性训练，适用于英语音频的音素转录。
代码开源，方便开发者使用和进一步研究。
在各项性能指标上表现出色，超越当前同类模型。

📦 安装指南

暂未提及安装相关内容，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoModelForCTC, AutoProcessor
import torch

# Load model and processor
model = AutoModelForCTC.from_pretrained("KoelLabs/xlsr-timit-b0")
processor = AutoProcessor.from_pretrained("KoelLabs/xlsr-timit-b0")

# Prepare input
audio_input = "path_to_your_audio_file.wav"  # Replace with your file
input_values = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values

# Retrieve logits
with torch.no_grad():
    logits = model(input_values).logits

# Decode predictions
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
print(transcription)

📚 详细文档

性能表现

训练损失：1.254
验证损失：0.267
测试结果（TIMIT测试集）：
- 平均加权距离：13.309375
- 加权距离标准差：9.87
- 平均字符错误率（CER）：0.113
- 字符错误率标准差：0.06

image/png

模型信息

属性	详情
模型类型	基于预训练检查点 ginic/data_seed_4_wav2vec2-large-xlsr-buckeye-ipa 微调
训练轮数	40
学习率	8e - 5
优化器	Adam
训练数据	TIMIT, Darpa英语语料库

示例输出

预测结果：lizteɪkðɪsdɹɾiteɪbklɔθiðiklinizfɹmi
真实标签：lizteɪkðɪsdɹɾiteɪbəklɔtiðiklinizfɹmi
加权特征编辑距离：7.875
字符错误率：0.0556
预测结果：ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiɾimpɛɾikoʊts
真实标签：ɹænmʌðɹʔaʊtɹuhɹʔʌpɹɪŋiŋinpɛɾikoʊts
加权特征编辑距离：2.375
字符错误率：0.0588