orpheus_3b_0.1_GGUF开源语音大模型 - 免费实现高质量文本转语音及情感控制

首页

Orpheus 3b 0.1 GGUF

由 Prince-1 开发

基于Llama架构的语音大模型，专为高质量文本转语音设计，支持情感控制和实时流式传输

语音合成支持多种语言开源协议:Apache-2.0 #零样本音色克隆 #情感可控语音合成 #实时流式TTS

下载量 423

发布时间 : 4/23/2025

模型简介

Orpheus TTS是基于Llama架构的语音合成模型，通过Unsloth框架和TRL库实现高效训练，可生成拟真语音并支持声音克隆功能

模型特点

拟真语音合成

生成自然语调、情感和节奏，超越当前闭源最优模型

零样本声音克隆

无需预训练即可克隆特定音色

情感语调引导

通过简单标签控制语音情感特征

低延迟流式处理

实时应用场景下约200ms流式延迟，输入流式传输时可降至100ms

模型能力

高质量语音合成

音色克隆

情感语音控制

实时流式传输

使用案例

语音交互应用

虚拟助手

为虚拟助手生成自然语音响应

实现人类级语音交互体验

有声内容创作

自动生成有声读物或播客内容

大幅降低内容制作成本

辅助技术

语音辅助设备

为视障人士提供高质量语音输出

提升辅助设备使用体验

🚀 上传的模型

本项目上传了一个经过微调的模型，该模型基于特定的基础模型进行训练，具备高效训练和高质量语音合成等特点。

模型信息

属性	详情
基础模型	unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit
标签	text-generation-inference、transformers、unsloth、llama、trl、tts、text-to-speech、gguf、llama-cpp-python
许可证	apache-2.0
库名称	transformers
语言	en
数据集	MrDragonFox/Elise

模型微调信息

微调者：Prince-1
许可证：apache-2.0
基础微调模型：unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit

这个Llama模型使用 Unsloth 和Huggingface的TRL库进行训练，速度提升了2倍。

Orpheus TTS是一款基于Llama的先进语音大语言模型（Speech-LLM），专为高质量、富有同理心的文本转语音生成而设计。该模型经过微调，能够实现接近人类水平的语音合成，在清晰度、表现力和实时流式传输性能方面表现出色。

✨ 主要特性

模型能力

类人语音：具有自然的语调、情感和节奏，优于当前最先进的闭源模型。
零样本语音克隆：无需事先微调即可克隆语音。
情感和语调引导：通过简单的标签控制语音和情感特征。
低延迟：实时应用的流式传输延迟约为200ms，使用输入流式传输可将延迟降低至约100ms。

模型资源

GitHub仓库：https://github.com/canopyai/Orpheus-TTS
博客文章：https://canopylabs.ai/model-releases
Colab推理笔记本：notebook link

🔧 技术细节

量化

模型已转换为 GGUF 格式。

可选择的 quantization_method 如下：

not_quantized：推荐。转换速度快，推理速度慢，文件大。
fast_quantized：推荐。转换速度快，推理效果一般，文件大小适中。
quantized：推荐。转换速度慢，推理速度快，文件小。
f32：不推荐。保留100%的精度，但速度极慢且占用大量内存。
f16：转换速度最快，保留100%的精度，但速度慢且占用大量内存。
q8_0：转换速度快，资源使用高，但通常可以接受。
q4_k_m：推荐。对 attention.wv 和 feed_forward.w2 张量的一半使用Q6_K，其余使用Q4_K。
q5_k_m：推荐。对 attention.wv 和 feed_forward.w2 张量的一半使用Q6_K，其余使用Q5_K。
q2_k：对 attention.vw 和 feed_forward.w2 张量使用Q4_K，对其他张量使用Q2_K。
q3_k_l：对 attention.wv、attention.wo 和 feed_forward.w2 张量使用Q5_K，其余使用Q3_K。
q3_k_m：对 attention.wv、attention.wo 和 feed_forward.w2 张量使用Q4_K，其余使用Q3_K。
q3_k_s：对所有张量使用Q3_K。
q4_0：原始的4位量化方法。
q4_1：比q4_0精度高，但不如q5_0。不过，推理速度比q5模型快。
q4_k_s：对所有张量使用Q4_K。
q4_k：q4_k_m的别名。
q5_k：q5_k_m的别名。
q5_0：精度更高，资源使用更多，推理速度更慢。
q5_1：精度更高，资源使用更多，推理速度更慢。
q5_k_s：对所有张量使用Q5_K。
q6_k：对所有张量使用Q8_K。