language: zh
tags:
- 文本转语音
- TTS
- 音频
- 语音合成
- orpheus
- gguf
license: apache-2.0
datasets:
- 内部数据集
Orpheus-3b-FT-Q2_K
这是canopylabs/orpheus-3b-0.1-ft的量化版本。
Orpheus是一款高性能文本转语音模型,专为自然情感语音合成而微调。本仓库托管了30亿参数模型的8位量化版本,在保持高质量输出的同时优化了效率。
模型描述
Orpheus-3b-FT-Q2_K是一个30亿参数的文本转语音模型,可将文本输入转换为自然语音,支持多种音色和情感表达。该模型已量化为8位(Q2_K)格式以实现高效推理,使其能在消费级硬件上运行。
核心特性:
- 8种特色鲜明的可选音色
- 支持笑声、叹息等情感标签
- 针对RTX显卡的CUDA加速优化
- 生成24kHz单声道高质量音频
- 针对对话自然度进行微调
使用方法
本模型需配合连接Orpheus-FastAPI前端的LLM推理服务器使用,该前端提供Web界面和OpenAI兼容API。
兼容推理服务器
该量化模型可加载至以下LLM推理服务器:
快速开始
-
从lex-au的Orpheus-FASTAPI集合下载量化模型
-
在首选推理服务器中加载模型并启动服务
-
克隆Orpheus-FastAPI仓库:
git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI
-
通过设置ORPHEUS_API_URL
环境变量配置FastAPI服务器连接推理服务器
-
按照仓库README完成安装设置
音频样本
试听不同音色与情感的合成效果:
默认音色样本
Leah(欢快)
Tara(忧伤)
Zac(沉思)
可选音色
支持8种不同音色:
tara
:女声,对话式,清晰
leah
:女声,温暖,柔和
jess
:女声,活力,青春
leo
:男声,权威,低沉
dan
:男声,友好,随意
mia
:女声,专业,清晰
zac
:男声,热情,生动
zoe
:女声,平静,舒缓
情感标签
通过插入标签增强表现力:
<laugh>
, <chuckle>
:笑声
<sigh>
:叹息声
<cough>
, <sniffle>
:细微中断音
<groan>
, <yawn>
, <gasp>
:附加情感表达
技术规格
- 架构:专用token-to-audio序列模型
- 参数:约30亿
- 量化:8位(GGUF Q2_K格式)
- 音频采样率:24kHz
- 输入:文本(可选音色和情感标签)
- 输出:高质量WAV音频
- 语言:英语
- 硬件要求:兼容CUDA的GPU(推荐RTX系列)
- 集成方式:外部LLM推理服务器+Orpheus-FastAPI前端
局限性
- 目前仅支持英文文本
- 在CUDA兼容GPU上性能最佳
- 生成速度取决于GPU性能
许可协议
本模型采用Apache 2.0许可证。
引用与归属
原始Orpheus模型由Canopy Labs创建。本仓库包含为Orpheus-FastAPI服务器优化的量化版本。
若在研究或应用中使用此量化模型,请引用:
@misc{orpheus-tts-2025,
author = {Canopy Labs},
title = {Orpheus-3b-0.1-ft: 文本转语音模型},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}
@misc{orpheus-quantised-2025,
author = {Lex-au},
title = {Orpheus-3b-FT-Q2_K: 带FastAPI服务器的量化TTS模型},
note = {canopylabs/orpheus-3b-0.1-ft的GGUF量化版本},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q4_K_M.gguf}}
}