audioX-north-v1开源多语言自动语音识别模型 - 免费部署精准识别印度语言

首页

Audiox North V1

由 jiviai 开发

AudioX是由Jivi AI开发的多语言自动语音识别模型，针对印度语言优化，支持印地语、古吉拉特语和马拉地语。

语音识别

Safetensors

其他开源协议:Apache-2.0 #印度多语言ASR #医疗场景优化 #低WER转录

下载量 810

发布时间 : 2/16/2025

模型简介

AudioX是专为印度语言设计的自动语音识别模型系列，包含针对不同语言组优化的变体，提供高准确性的语音转文本服务。

模型特点

多语言支持

专门优化支持印地语、古吉拉特语和马拉地语等多种印度语言

高准确性

在Vistaar Benchmark上表现优异，超越多个商业ASR模型

鲁棒性强

能够处理不同地区口音和声学条件下的语音输入

混合训练数据

结合开源ASR语料库和专有医疗数据集进行训练

模型能力

语音转文本

多语言语音识别

口音适应

使用案例

语音助手

多语言语音交互

为印度多语言用户提供语音交互支持

转录服务

医疗记录转录

将医生与患者的对话转录为文本记录

客户服务

自动化客服系统

处理多语言客户的语音查询

🚀 AudioX：多语言语音转文本模型

AudioX 是由 Jivi AI 开发的先进印度多语言自动语音识别（ASR）模型家族。它包含两个专门的变体——AudioX-North 和 AudioX-South，每个变体都针对不同的印度语言集进行了优化，以确保更高的准确性。AudioX-North 支持印地语、古吉拉特语和马拉地语，而 AudioX-South 则涵盖泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语。AudioX 模型在开源 ASR 数据集和专有音频的组合上进行训练，能够在各种口音和声学条件下提供强大的转录能力，在支持的语言中实现了行业领先的性能。 AudioX

🚀 快速开始

模型推理示例

你可以使用 🤗 transformers 和 librosa 库轻松运行推理。以下是一个简单的入门示例：

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa

# 加载模型和处理器
device = "cuda"
processor = WhisperProcessor.from_pretrained("jiviai/audioX-north-v1")
model = WhisperForConditionalGeneration.from_pretrained("jiviai/audioX-north-v1").to(device)
model.config.forced_decoder_ids = None

# 加载并预处理音频
audio_path = "sample.wav"
audio_np, sr = librosa.load(audio_path, sr=None)
if sr != 16000:
    audio_np = librosa.resample(audio_np, orig_sr=sr, target_sr=16000)

input_features = processor(audio_np, sampling_rate=16000, return_tensors="pt").to(device).input_features

# 生成预测
# 使用 ISO 639-1 语言代码：北部语言用 "hi"、"mr"、"gu"；南部语言用 "ta"、"te"、"kn"、"ml"
# 或者省略语言参数以进行自动语言检测
predicted_ids = model.generate(input_features, task="transcribe", language="hi")

# 解码预测结果
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)

✨ 主要特性

专为印度语言设计

AudioX 旨在处理多样化的印度语言输入，支持语音助手、转录工具、客户服务自动化和多语言内容创作等实际应用。它在各种地区口音和不同音频质量下都能提供高精度的识别。

强大的训练能力

AudioX 在开源语音识别骨干模型的基础上，使用监督学习进行微调。训练流程结合了领域自适应、语言平衡和噪声增强，以确保在实际场景中的鲁棒性。

优质的数据准备

该模型在以下数据上进行训练：

开源多语言 ASR 语料库
专有的印度语言医疗数据集

这种混合方法提高了模型在不同方言和声学条件下的泛化能力。

卓越的基准表现

AudioX 在多种印度语言上取得了顶尖的性能，超越了开源和商业 ASR 模型。我们使用 AI4Bharat 的 Vistaar 套件提供的官方评估脚本，在 Vistaar 基准测试上对 AudioX 进行了评估，确保了在不同语言场景下的严格、标准化比较。

提供商	模型	印地语	古吉拉特语	马拉地语	泰米尔语	泰卢固语	卡纳达语	马拉雅拉姆语	平均 WER
Jivi AI	AudioX	12.14	18.66	18.68	21.79	24.63	17.61	26.92	20.1
ElevenLabs	Scribe-v1	13.64	17.96	16.51	24.84	24.89	17.65	28.88	20.6
Sarvam	saarika:v2	14.28	19.47	18.34	25.73	26.80	18.95	32.64	22.3
AI4Bharat	IndicWhisper	13.59	22.84	18.25	25.27	28.82	18.33	32.34	22.8
Microsoft	Azure STT	20.03	31.62	27.36	31.53	31.38	26.45	41.84	30.0
OpenAI	gpt - 4o - transcribe	18.65	31.32	25.21	39.10	33.94	32.88	46.11	32.5
Google	Google STT	23.89	36.48	26.48	33.62	42.42	31.48	47.90	34.6
OpenAI	Whisper Large v3	32.00	53.75	78.28	52.44	179.58	67.02	142.98	86.6