Voxtral Mini开源音频AI模型 - 免费部署实现语音转录、翻译及理解

首页

Voxtral Mini 3B 2507 Transformers

由 MohamedRashad 开发

Voxtral Mini是基于Ministral 3B的增强版本，具备先进的音频输入能力，在语音转录、翻译和音频理解等方面表现出色。

音频生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #音频理解 #多语言转录 #长上下文处理

下载量 416

发布时间 : 7/18/2025

模型简介

Voxtral Mini是一个结合文本和音频处理能力的多模态模型，保留了Ministral 3B的文本处理能力，同时增加了强大的音频理解功能。

模型特点

专用转录模式

可以在纯语音转录模式下运行，自动识别源音频语言并进行文本转录

长上下文处理

支持32k标记的上下文长度，可处理长达30-40分钟的音频

内置问答和摘要功能

支持直接通过音频提问并生成结构化摘要，无需单独的ASR和语言模型

原生多语言支持

自动检测并支持8种主要语言的音频处理

语音直接调用功能

能够根据语音意图直接触发后端功能、工作流或API调用

模型能力

语音转录

音频理解

多语言支持

长音频处理

文本生成

问答系统

摘要生成

多轮对话

使用案例

语音处理

会议记录转录

将长达30分钟的会议录音自动转录为文字

高准确率的转录文本

多语言语音翻译

将一种语言的语音实时翻译为另一种语言的文本

支持8种主要语言的互译

音频分析

音频内容理解

直接对音频内容提问并获取答案

无需先转录即可理解音频内容

音频摘要生成

分析长音频并生成结构化摘要

节省人工整理时间

🚀 Voxtral Mini 3B - 2507（Transformers版本）

Voxtral Mini是基于Ministral 3B的增强版本，它在保留一流文本处理性能的同时，融入了先进的音频输入能力。该模型在语音转录、翻译和音频理解等方面表现出色。

你可以在我们的博客文章中了解更多关于Voxtral的信息。

✨ 主要特性

Voxtral在Ministral - 3B的基础上，具备强大的音频理解能力：

专用转录模式：Voxtral可以在纯语音转录模式下运行，以实现最佳性能。默认情况下，Voxtral会自动识别源音频语言，并相应地进行文本转录。
长上下文处理：拥有32k的标记上下文长度，Voxtral能够处理长达30分钟的音频进行转录，或40分钟的音频进行理解。
内置问答和摘要功能：支持直接通过音频提问。可以分析音频并生成结构化摘要，无需单独的自动语音识别（ASR）和语言模型。
原生多语言支持：自动检测语言，并在世界上使用最广泛的语言（英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语）中表现出色。
语音直接调用功能：能够根据用户的语音意图直接触发后端功能、工作流或API调用。
强大的文本处理能力：保留了其语言模型主干Ministral - 3B的文本理解能力。

📊 基准测试结果

音频

在FLEURS、Mozilla Common Voice和Multilingual LibriSpeech基准测试中的平均单词错误率（WER）：

image/png

文本

image/png

📦 安装指南

安装Transformers（从源代码安装）

pip install git+https://github.com/huggingface/transformers

💻 使用示例

该模型可以与以下框架一起使用：

Transformers 🤗：详见此处

⚠️ 重要提示

在聊天完成任务（例如音频理解）中，建议使用temperature = 0.2和top_p = 0.95；在转录任务中，建议使用temperature = 0.0。

支持每条消息包含多个音频，以及多轮带音频的用户对话。

目前暂不支持系统提示。

Transformers 🤗

Voxtral原生支持Transformers！

音频指令

➡️ 多音频 + 文本指令

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/mary_had_lamb.mp3",
            },
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
            },
            {"type": "text", "text": "What sport and what nursery rhyme are referenced?"},
        ],
    }
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ 多轮对话

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3",
            },
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/bcn_weather.mp3",
            },
            {"type": "text", "text": "Describe briefly what you can hear."},
        ],
    },
    {
        "role": "assistant",
        "content": "The audio begins with the speaker delivering a farewell address in Chicago, reflecting on his eight years as president and expressing gratitude to the American people. The audio then transitions to a weather report, stating that it was 35 degrees in Barcelona the previous day, but the temperature would drop to minus 20 degrees the following day.",
    },
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
            },
            {"type": "text", "text": "Ok, now compare this new audio with the previous one."},
        ],
    },
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ 仅文本输入

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Why should AI models be open-sourced?",
            },
        ],
    }
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ 仅音频输入

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
            },
        ],
    }
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ 批量推理

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversations = [
    [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio",
                    "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3",
                },
                {
                    "type": "audio",
                    "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/bcn_weather.mp3",
                },
                {
                    "type": "text",
                    "text": "Who's speaking in the speach and what city's weather is being discussed?",
                },
            ],
        }
    ],
    [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio",
                    "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
                },
                {"type": "text", "text": "What can you tell me about this audio?"},
            ],
        }
    ],
]

inputs = processor.apply_chat_template(conversations)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated responses:")
print("=" * 80)
for decoded_output in decoded_outputs:
    print(decoded_output)
    print("=" * 80)

转录

➡️ 转录示例

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

inputs = processor.apply_transcrition_request(language="en", audio="https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3", model_id=repo_id)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated responses:")
print("=" * 80)
for decoded_output in decoded_outputs:
    print(decoded_output)
    print("=" * 80)