Higgs Audio V2 Generation 3B Base
H

Higgs Audio V2 Generation 3B Base

由 bosonai 开发
Higgs Audio V2是一个强大的音频基础模型,在超过1000万小时的音频数据和多样化的文本数据上进行了预训练,能够生成表现力丰富的音频。
下载量 515
发布时间 : 7/1/2025

模型简介

Higgs Audio V2是一个音频生成模型,专注于表现力丰富的音频生成,支持多语言和多种音频任务。

模型特点

表现力丰富的音频生成
模型在表现力丰富的音频生成方面表现出色,能够自动适应韵律和情感。
多语言支持
能够进行零样本生成多种语言的自然多说话人对话。
先进的性能
在多个基准测试中取得了优异的成绩,超过了多个知名模型。
独特的能力
具备自动适应韵律、零样本生成旋律哼唱、同时生成语音和背景音乐等能力。

模型能力

文本到语音转换
多语言对话生成
旋律哼唱生成
语音和背景音乐同时生成
情感语音生成

使用案例

语音生成
情感语音生成
生成具有丰富情感的语音
在EmergentTTS-Eval的“情感”类别上以75.7%的胜率超过gpt-4o-mini-tts
多语言对话生成
生成自然的多说话人对话
在多说话人评估基准中表现优异
音乐生成
旋律哼唱生成
用克隆语音进行零样本生成旋律哼唱
AIbase
智启未来,您的人工智能解决方案智库