license: apache-2.0
tags:
- 自动语音识别
- 音频
- 语音
- whisper
- 多语言
model-index:
- name: Jivi-AudioX-南方版
results:
- task:
name: 自动语音识别
type: 自动语音识别
dataset:
name: Vistaar基准测试(泰米尔语)
type: vistaar
config: 泰米尔语
split: 测试集
metrics:
- name: 词错误率(WER)
type: wer
value: 21.79
- task:
name: 自动语音识别
type: 自动语音识别
dataset:
name: Vistaar基准测试(泰卢固语)
type: vistaar
config: 泰卢固语
split: 测试集
metrics:
- name: 词错误率(WER)
type: wer
value: 24.63
- task:
name: 自动语音识别
type: 自动语音识别
dataset:
name: Vistaar基准测试(卡纳达语)
type: vistaar
config: 卡纳达语
split: 测试集
metrics:
- name: 词错误率(WER)
type: wer
value: 17.61
- task:
name: 自动语音识别
type: 自动语音识别
dataset:
name: Vistaar基准测试(马拉雅拉姆语)
type: vistaar
config: 马拉雅拉姆语
split: 测试集
metrics:
- name: 词错误率(WER)
type: wer
value: 26.92
pipeline_tag: 自动语音识别
language:
- 泰米尔语
- 泰卢固语
- 卡纳达语
- 马拉雅拉姆语
AudioX:多语言语音转文本模型
AudioX是由Jivi AI开发的最先进的印度多语言自动语音识别(ASR)模型系列。它包含两个专门变体——AudioX-北方版和AudioX-南方版——每个版本都针对不同的印度语言集进行了优化,以确保更高的准确性。AudioX-北方版支持印地语、古吉拉特语和马拉地语,而AudioX-南方版涵盖泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语。通过结合开源ASR数据集和专有音频进行训练,AudioX模型在口音和声学条件方面提供了强大的转录能力,在支持的语言中提供行业领先的性能。

专为印度语言打造:
AudioX旨在处理多样化的印度语言输入,支持语音助手、转录工具、客户服务自动化和多语言内容创作等实际应用。它在地区口音和不同音频质量下均提供高准确性。
训练过程:
AudioX在开源语音识别框架基础上使用监督学习进行微调。训练流程结合了领域适应、语言平衡和噪声增强,以确保在真实场景中的鲁棒性。
数据准备:
模型训练数据包括:
这种混合方法提升了模型在方言和声学条件下的泛化能力。
基准测试:
AudioX在多种印度语言中表现优异,超越了开源和商业ASR模型。
我们使用AI4Bharat的Vistaar套件提供的官方评估脚本,在Vistaar基准测试上对AudioX进行了评估,确保在不同语言场景下进行严格、标准化的比较。
提供商 |
模型 |
印地语 |
古吉拉特语 |
马拉地语 |
泰米尔语 |
泰卢固语 |
卡纳达语 |
马拉雅拉姆语 |
平均WER |
Jivi AI |
AudioX |
12.14 |
18.66 |
18.68 |
21.79 |
24.63 |
17.61 |
26.92 |
20.1 |
ElevenLabs |
Scribe-v1 |
13.64 |
17.96 |
16.51 |
24.84 |
24.89 |
17.65 |
28.88 |
20.6 |
Sarvam |
saarika:v2 |
14.28 |
19.47 |
18.34 |
25.73 |
26.80 |
18.95 |
32.64 |
22.3 |
AI4Bharat |
IndicWhisper |
13.59 |
22.84 |
18.25 |
25.27 |
28.82 |
18.33 |
32.34 |
22.8 |
Microsoft |
Azure STT |
20.03 |
31.62 |
27.36 |
31.53 |
31.38 |
26.45 |
41.84 |
30.0 |
OpenAI |
gpt-4o-transcribe |
18.65 |
31.32 |
25.21 |
39.10 |
33.94 |
32.88 |
46.11 |
32.5 |
Google |
Google STT |
23.89 |
36.48 |
26.48 |
33.62 |
42.42 |
31.48 |
47.90 |
34.6 |
OpenAI |
Whisper Large v3 |
32.00 |
53.75 |
78.28 |
52.44 |
179.58 |
67.02 |
142.98 |
86.6 |
🔧 试用此模型
您可以使用🤗 transformers
和librosa
库轻松运行推理。以下是一个简单的入门示例:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa
device = "cuda"
processor = WhisperProcessor.from_pretrained("jiviai/audioX-south-v1")
model = WhisperForConditionalGeneration.from_pretrained("jiviai/audioX-south-v1").to(device)
model.config.forced_decoder_ids = None
audio_path = "sample.wav"
audio_np, sr = librosa.load(audio_path, sr=None)
if sr != 16000:
audio_np = librosa.resample(audio_np, orig_sr=sr, target_sr=16000)
input_features = processor(audio_np, sampling_rate=16000, return_tensors="pt").to(device).input_features
predicted_ids = model.generate(input_features, task="transcribe", language="ta")
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)