Higgs Audio V2开源音频模型 - 基于海量数据预训练，免费生成丰富表现力音频

首页

Higgs Audio V2 Generation 3B Base

由 bosonai 开发

Higgs Audio V2是一个强大的音频基础模型，在超过1000万小时的音频数据和多样化的文本数据上进行了预训练，能够生成表现力丰富的音频。

语音合成

Safetensors

支持多种语言开源协议:其他 #多语言语音生成 #零样本韵律控制 #高表现力音频

下载量 515

发布时间 : 7/1/2025

模型简介

Higgs Audio V2是一个音频生成模型，专注于表现力丰富的音频生成，支持多语言和多种音频任务。

模型特点

表现力丰富的音频生成

模型在表现力丰富的音频生成方面表现出色，能够自动适应韵律和情感。

多语言支持

能够进行零样本生成多种语言的自然多说话人对话。

先进的性能

在多个基准测试中取得了优异的成绩，超过了多个知名模型。

独特的能力

具备自动适应韵律、零样本生成旋律哼唱、同时生成语音和背景音乐等能力。

模型能力

文本到语音转换

多语言对话生成

旋律哼唱生成

语音和背景音乐同时生成

情感语音生成

使用案例

语音生成

情感语音生成

生成具有丰富情感的语音

在EmergentTTS-Eval的“情感”类别上以75.7%的胜率超过gpt-4o-mini-tts

多语言对话生成

生成自然的多说话人对话

在多说话人评估基准中表现优异

音乐生成

旋律哼唱生成

用克隆语音进行零样本生成旋律哼唱

🚀 Higgs Audio V2：重新定义音频生成的表现力

我们开源了 Higgs Audio v2，这是一个强大的音频基础模型，在超过 1000 万小时的音频数据和多样化的文本数据上进行了预训练。尽管没有进行后训练或微调，但由于其对语言和声学的深入理解，Higgs Audio v2 在表现力丰富的音频生成方面表现出色。

更多详情请查看我们的开源仓库：https://github.com/boson-ai/higgs-audio ！

在 EmergentTTS-Eval 上，该模型在“情感”和“问题”类别上分别以 75.7% 和 55.7% 的胜率超过了 “gpt-4o-mini-tts”。它在传统 TTS 基准测试（如 Seed-TTS Eval 和情感语音数据集 (ESD)）上也取得了最先进的性能。此外，该模型还展示了以往系统中罕见的能力，包括在叙述过程中自动适应韵律、零样本生成多种语言的自然多说话人对话、用克隆语音进行零样本生成旋律哼唱，以及同时生成语音和背景音乐。

以下是展示其部分新兴能力的演示视频（记得打开声音）：

以下是展示该模型多语言能力以及如何实现实时翻译的另一个演示视频（记得打开声音）：

🚀 快速开始

你需要先安装 higgs-audio：

git clone https://github.com/boson-ai/higgs-audio.git

cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

之后，尝试运行以下 Python 代码片段将文本转换为语音：

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent

import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
    "Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]
device = "cuda" if torch.cuda.is_available() else "cpu"

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

你也可以查看 https://github.com/boson-ai/higgs-audio/tree/main/examples 以获取更多示例脚本。

✨ 主要特性

表现力丰富的音频生成：尽管没有进行后训练或微调，但由于其对语言和声学的深入理解，在表现力丰富的音频生成方面表现出色。
多语言支持：能够进行零样本生成多种语言的自然多说话人对话。
先进的性能：在多个基准测试中取得了优异的成绩，超过了多个知名模型。
独特的能力：具备自动适应韵律、零样本生成旋律哼唱、同时生成语音和背景音乐等能力。

📦 安装指南

你需要先安装 higgs-audio：

git clone https://github.com/boson-ai/higgs-audio.git

cd higgs-audio
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

💻 使用示例

基础用法

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent

import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
    "Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
    Message(
        role="system",
        content=system_prompt,
    ),
    Message(
        role="user",
        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
    ),
]
device = "cuda" if torch.cuda.is_available() else "cpu"

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95,
    top_k=50,
    stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

📚 详细文档

评估

以下是 Higgs Audio v2 在四个基准测试 Seed-TTS Eval、情感语音数据集 (ESD)、EmergentTTS-Eval 和多说话人评估中的性能：

Seed-TTS Eval & ESD

我们使用参考文本、参考音频和目标文本对 Higgs Audio v2 进行零样本 TTS 提示。我们使用 Seed-TTS Eval 和 ESD 的标准评估指标。

	SeedTTS-Eval		ESD
	WER ↓	SIM ↑	WER ↓	SIM (emo2vec) ↑
Cosyvoice2	2.28	65.49	2.71	80.48
Qwen2.5-omni†	2.33	64.10	-	-
ElevenLabs Multilingual V2	1.43	50.00	1.66	65.87
Higgs Audio v1	2.18	66.27	1.49	82.84
Higgs Audio v2 (base)	2.44	67.70	1.78	86.13

EmergentTTS-Eval（“情感”和“问题”）

根据 EmergentTTS-Eval 论文，我们报告了在“alloy”语音下相对于 “gpt-4o-mini-tts” 的胜率。Higgs Audio v2 的结果是使用 “belinda” 语音获得的。评判模型是 Gemini 2.5 Pro。

模型	情感 (%) ↑	问题 (%) ↑
Higgs Audio v2 (base)	75.71%	55.71%
gpt-4o-audio-preview†	61.64%	47.85%
Hume.AI	61.60%	43.21%
基线：gpt-4o-mini-tts	50.00%	50.00%
Qwen 2.5 Omni†	41.60%	51.78%
minimax/speech-02-hd	40.86%	47.32%
ElevenLabs Multilingual v2	30.35%	39.46%
DeepGram Aura-2	29.28%	48.21%
Sesame csm-1B	15.96%	31.78%

^{_{'†' 表示使用论文中描述的强提示方法。}}

多说话人评估

我们还设计了一个多说话人评估基准，以评估 Higgs Audio v2 在多说话人对话生成方面的能力。该基准包含三个子集：

two-speaker-conversation：1000 个涉及两个说话人的合成对话。我们固定两个参考音频片段，以评估模型在随机选择的两个人物之间 4 到 10 个对话的双语音克隆能力。
small talk (no ref)：250 个以上述相同方式策划的合成对话，但特点是短发言和有限的轮数（4 - 6），在这种情况下我们不固定参考音频，此集合旨在评估模型自动为说话人分配合适语音的能力。
small talk (ref)：250 个与上述类似的合成对话，但发言更短，因为此集合旨在在其上下文中包含参考片段，类似于 two-speaker-conversation。

我们报告了这三个子集的单词错误率 (WER) 以及说话人内相似度和说话人间不相似度之间的几何平均值。除了 Higgs Audio v2，我们还评估了 MoonCast 和 nari-labs/Dia-1.6B-0626，这是两个最流行的能够进行多说话人对话生成的开源模型。结果总结在下表中。由于 nari-labs/Dia-1.6B-0626 对发言长度和输出音频有严格限制，我们无法在 “two-speaker-conversation” 子集上运行该模型。

	双人对话		闲聊		闲聊（无参考）
	WER ↓	平均相似度和不相似度 ↑	WER ↓	平均相似度和不相似度 ↑	WER ↓	平均相似度和不相似度 ↑
MoonCast	38.77	46.02	8.33	63.68	24.65	53.94
nari-labs/Dia-1.6B-0626	-	-	17.62	63.15	19.46	61.14
Higgs Audio v2 (base)	18.88	51.95	11.89	67.92	14.65	55.28

🔧 技术细节

Higgs Audio v2 采用了上图架构图中所示的“生成变体”。其强大的性能得益于三项关键技术创新：

我们开发了一个自动化标注管道，该管道利用了多个自动语音识别 (ASR) 模型、声音事件分类模型和我们内部的音频理解模型。使用这个管道，我们清理并标注了 1000 万小时的音频数据，我们将其称为 AudioVerse。内部理解模型是在 Higgs Audio v1 理解模型的基础上进行微调的，该模型采用了架构图中所示的“理解变体”。
我们从头开始训练了一个统一的音频分词器，该分词器能够捕捉语义和声学特征。
我们提出了 DualFFN 架构，该架构以最小的计算开销增强了大语言模型 (LLM) 对声学标记的建模能力。

音频分词器

我们引入了一种新的离散化音频分词器，该分词器的运行速度仅为每秒 25 帧，同时与比特率高出一倍的分词器相比，能够保持甚至提高音频质量。我们的模型是第一个在 24 kHz 数据上进行训练的模型，该数据在一个统一的系统中涵盖了语音、音乐和声音事件。它还使用了一个简单的非扩散编码器/解码器进行快速批量推理。该分词器在语义和声学评估中取得了最先进的性能。有关该分词器的更多信息，请查看 https://huggingface.co/bosonai/higgs-audio-v2-tokenizer。

模型架构——Dual FFN

Higgs Audio v2 基于 Llama-3.2-3B 构建。为了增强模型处理音频标记的能力，我们引入了 “DualFFN” 架构作为音频适配器。DualFFN 作为特定于音频的专家，以最小的计算开销提升了大语言模型的性能。我们的实现表明，在加入具有 22 亿参数的 DualFFN 后，原始大语言模型的训练速度保留了 91%。因此，Higgs Audio v2 的总参数数量为 36 亿（大语言模型）+ 22 亿（音频 Dual FFN），并且其训练/推理的浮点运算次数与 Llama-3.2-3B 相同。消融实验表明，配备 DualFFN 的模型在单词错误率 (WER) 和说话人相似度方面始终优于未配备的模型。更多信息请参阅我们的架构博客。