ruT5-ASR-large开源模型 - 免费纠正俄语语音识别错误并恢复标点大小写

首页

Rut5 ASR Large

由 bond005 开发

基于ruT5-large架构的俄语ASR输出校正模型，用于纠正语音识别错误、恢复标点及大小写

文本生成

Transformers

其他开源协议:Apache-2.0 #俄语ASR纠错 #标点恢复 #大小写校正

下载量 266

发布时间 : 6/22/2023

模型简介

该模型专门用于自动语音识别(ASR)输出的后处理，可纠正识别错误、恢复标点符号和大小写格式，特别针对Wav2Vec2-Large-Ru-Golos的输出优化

模型特点

ASR输出增强

针对俄语语音识别结果进行智能校正，提升文本可读性

标点符号恢复

自动补全句子标点符号，包括句号、逗号等基本标点

大小写规范化

自动修正专有名词和句子开头的大小写格式

基于T5架构

利用ruT5-large的强大序列转换能力进行文本重构

模型能力

语音识别后处理

文本错误纠正

标点符号恢复

大小写规范化

俄语文本重构

使用案例

语音识别增强

ASR输出校正

修正Wav2Vec2等ASR系统输出的识别错误

示例显示能修正语义错误并添加缺失标点

会议记录处理

对语音转文字结果进行自动化后处理

提升转录文本的可读性和专业性

文本规范化

音频转录后处理

为语音识别生成的原始文本添加标点和正确大小写

输出符合出版标准的格式化文本

🚀 ruT5-ASR-large

ruT5-ASR-large 模型由 bond005 训练，用于纠正自动语音识别（ASR）输出中的错误、恢复标点和大小写（特别是 Wav2Vec2-Large-Ru-Golos 的输出）。该模型基于 ruT5-large 构建。

🚀 快速开始

安装依赖

运行代码前，请确保已经安装了 transformers 和 torch 库。可以使用以下命令进行安装：

pip install transformers torch

代码示例

from transformers import T5ForConditionalGeneration
from transformers import GenerationConfig
from transformers import T5Tokenizer
import torch


def restore_text(text: str, tokenizer: T5Tokenizer, config: GenerationConfig,
                 model: T5ForConditionalGeneration) -> str:
    if len(text) == 0:  # if an input text is empty, then we return an empty text too
        return ''
    x = tokenizer(text, return_tensors='pt', padding=True).to(model.device)
    max_size = int(x.input_ids.shape[1] * 2.0 + 10)
    min_size = 3
    if x.input_ids.shape[1] <= min_size:
        return text
    out = model.generate(**x, generation_config=config, max_length=max_size)
    res = tokenizer.decode(out[0], skip_special_tokens=True).strip()
    return ' '.join(res.split())


# load model and tokenizer
tokenizer_for_restoring = T5Tokenizer.from_pretrained('bond005/ruT5-ASR-large')
model_for_restoring = T5ForConditionalGeneration.from_pretrained('bond005/ruT5-ASR-large')
config_for_restoring = GenerationConfig.from_pretrained('bond005/ruT5-ASR-large')
if torch.cuda.is_available():
    model_for_restoring = model_for_restoring.cuda()

input_examples = [
    'краеугольным камнем любышь алгоритных машиного обучения является преждес его ' \
    'обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая ' \
    'выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной ' \
    'задачи мы минимизируем в функцию ошибки по параметрам нашей модели на обучающие ' \
    'выбрать но на самом деле хотим там и не этого ' \
    'мы не обучающую ошибку хотим минимизировать',  # 0
    'максимально ухучать идеальную систему в воде туда какие то элементы или условия ' \
    'чтобы итоговое результат должен быть такой мы должны в двадцать два раза ' \
    'замедлить нашу разработку'  # 1
]

for idx, val in enumerate(input_examples):
    restored = restore_text(val, tokenizer_for_restoring,
                            config_for_restoring, model_for_restoring)
    print('==========')
    print(f'示例 {idx + 1}')
    print('==========')
    print('')
    print('恢复前的ASR输出:')
    print('')
    print(val)
    print('')
    print('恢复后的输出:')
    print('')
    print(restored)
    print('')

运行结果

==========
示例 1
==========

恢复前的ASR输出:

краеугольным камнем любышь алгоритных машиного обучения является преждес его обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной задачи мы минимизируем в функцию ошибки по параметрам нашей модели на обучающие выбрать но на самом деле хотим там и не этого мы не обучающую ошибку хотим минимизировать

恢复后的输出:

Краеугольным камнем любого алгоритма машинного обучения является прежде всего его общая способность. Тогда мы обучаем некоторую модель, у нас есть обучающая выборка, у нас есть критическая ошибка, и наша задача сводится в общем к компенсационной задаче. Мы минимизируем функцию ошибки по параметрам нашей модели на обучающую выборку, но на самом деле хотим там и не этого. Мы не обучающую ошибку хотим минимизировать.

==========
示例 2
==========

恢复前的ASR输出:

максимально ухучать идеальную систему в воде туда какие то элементы или условия чтобы итоговое результат должен быть такой мы должны в двадцать два раза замедлить нашу разработку

恢复后的输出:

Максимально ухудшать идеальную систему, вводить туда какие-то элементы или условия. Чтобы итоговый результат должен быть такой, мы должны в 22 раза замедлить нашу разработку.