Arabic-Morocco-Speech_To_Text开源模型 - 精准识别摩洛哥口音阿拉伯语语音

首页

Arabic Morocco Speech To Text

由 smerchi 开发

基于Whisper-large-v3的阿拉伯语语音识别模型，针对摩洛哥口音优化

语音识别

Transformers

阿拉伯语开源协议:Apache-2.0 #阿拉伯语语音识别 #低资源优化 #实时转写

下载量 194

发布时间 : 1/17/2024

模型简介

这是一个基于OpenAI Whisper-large-v3的自动语音识别(ASR)模型，专门针对阿拉伯语特别是摩洛哥口音进行了微调。适用于将阿拉伯语语音转换为文本的任务。

模型特点

摩洛哥口音优化

针对摩洛哥阿拉伯语口音进行了专门优化

基于Whisper-large-v3

建立在强大的Whisper-large-v3基础模型上

高效语音识别

支持长音频分块处理，提高识别效率

模型能力

阿拉伯语语音识别

长音频处理

时间戳生成

使用案例

语音转录

会议记录

将阿拉伯语会议录音转换为文字记录

媒体字幕生成

为阿拉伯语视频内容自动生成字幕

语音分析

客服对话分析

分析摩洛哥客户的语音反馈

🚀 Whisper_Cleverlytics

Whisper_Cleverlytics是一款语音识别模型，基于openai/whisper-large-v3基础模型，使用Voice_Cleverlytics数据集进行训练，适用于阿拉伯语语音识别任务。

🚀 快速开始

若要运行该模型，首先需通过GitHub仓库安装Transformers库。

pip install --upgrade pip
pip install --upgrade git+https://github.com/huggingface/transformers.git accelerate datasets[audio]

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
#from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "smerchi/Arabic-Morocco-Speech_To_Text"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=False, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

audio="/content/audio.mp3"

%time result = pipe(audio)
print(result["text"],)

💻 使用示例

基础用法

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
#from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model_id = "smerchi/Arabic-Morocco-Speech_To_Text"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=False, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

audio="/content/audio.mp3"

%time result = pipe(audio)
print(result["text"],)