Orpheus-3b-Hindi-FT-Q8_0.gguf开源文本转语音模型

首页

Orpheus 3b Hindi FT Q8 0.gguf

由 lex-au 开发

俄耳甫斯是一款高性能文本转语音模型，专为自然情感语音合成而微调。本仓库托管了30亿参数模型的8位量化版本，在保持高质量输出的同时优化了效率。

语音合成其他开源协议:Apache-2.0 #印地语TTS #情感语音合成 #8位量化

下载量 42

发布时间 : 4/18/2025

模型简介

俄耳甫斯是一款高性能文本转语音模型，支持多种音色和情感表达，可将文本输入转换为自然语音。该模型已量化为8位(Q8_0)格式以实现高效推理，使其能在消费级硬件上运行。

模型特点

高质量语音合成

生成24kHz单声道高质量音频，针对对话自然度进行微调

情感表达支持

支持情感标签（如笑声、叹息等），增强语音表现力

高效推理

8位量化版本，优化了效率，可在消费级硬件上运行

CUDA加速优化

针对RTX显卡的CUDA加速优化

模型能力

文本转语音

情感语音合成

印地语语音生成

使用案例

语音合成

有声读物生成

将印地语文本转换为自然语音，用于有声读物制作

生成富有表现力的高质量音频

语音助手

为印地语语音助手提供自然语音输出

支持情感表达，提升用户体验

🚀 Orpheus-3b-FT-Q8_0

Orpheus-3b-FT-Q8_0 是一个高性能的文本转语音模型，它经过微调，能够实现自然、富有情感的语音合成。本项目是 canopylabs/3b-hi-ft-research_release 的 8 位量化版本，在保证高效推理的同时，仍能输出高质量的语音。

🚀 快速开始

从 lex-au 的 Orpheus-FASTAPI 集合下载此量化模型。
将模型加载到你首选的大语言模型（LLM）推理服务器中并启动服务器。
克隆 Orpheus-FastAPI 仓库：

git clone https://github.com/Lex-au/Orpheus-FastAPI.git
cd Orpheus-FastAPI

通过设置 ORPHEUS_API_URL 环境变量，配置 FastAPI 服务器以连接到你的推理服务器。
遵循仓库 README 中的完整安装和设置说明。

✨ 主要特性

具备 1 种独特的语音选项，且各有不同特点。
支持如笑声、叹息声等情感标签。
针对 RTX GPU 上的 CUDA 加速进行了优化。
可生成高质量的 24kHz 单声道音频。
针对对话自然度进行了微调。

📦 安装指南

此量化模型可以加载到以下任何 LLM 推理服务器中：

GPUStack - GPU 优化的 LLM 推理服务器（推荐） - 支持局域网/广域网张量拆分并行化。
LM Studio - 加载 GGUF 模型并启动本地服务器。
llama.cpp server - 使用适当的模型参数运行。
任何兼容的 OpenAI API 服务器。

💻 使用示例

基础用法

该模型旨在与连接到 Orpheus-FastAPI 前端的 LLM 推理服务器一起使用，该前端同时提供 Web 界面和 OpenAI 兼容的 API 端点。

可用语音

模型支持 1 种语音：

ऋतिका：女性，印地语，富有表现力。

情感标签

你可以通过插入标签为语音添加表现力：

<laugh>、<chuckle>：用于笑声。
<sigh>：用于叹息声。
<cough>、<sniffle>：用于轻微的中断声。
<groan>、<yawn>、<gasp>：用于额外的情感表达。

📚 详细文档

模型描述

Orpheus-3b-FT-Q8_0 是一个拥有约 30 亿参数的文本转语音模型，它可以将文本输入转换为自然的语音，支持多种语音和情感表达。该模型已被量化为 8 位（Q8_0）格式，以实现高效推理，使其能够在消费级硬件上运行。

技术规格

属性	详情
模型类型	专门的令牌到音频序列模型
参数数量	约 30 亿
量化方式	8 位（GGUF Q8_0 格式）
音频采样率	24kHz
输入	带有可选语音选择和情感标签的文本
输出	高质量的 WAV 音频
语言	印地语
硬件要求	支持 CUDA 的 GPU（推荐：RTX 系列）
集成方式	外部 LLM 推理服务器 + Orpheus-FastAPI 前端

局限性

目前仅支持英文文本。
在支持 CUDA 的 GPU 上可实现最佳性能。
生成速度取决于 GPU 性能。

🔧 技术细节

架构：专门的令牌到音频序列模型。
参数：约 30 亿。
量化：8 位（GGUF Q8_0 格式）。
音频采样率：24kHz。
输入：带有可选语音选择和情感标签的文本。
输出：高质量的 WAV 音频。
语言：印地语。
硬件要求：支持 CUDA 的 GPU（推荐：RTX 系列）。
集成方法：外部 LLM 推理服务器 + Orpheus-FastAPI 前端。

📄 许可证

此模型遵循 Apache 许可证 2.0。

🔖 引用与归属

原始的 Orpheus 模型由 Canopy Labs 创建。本仓库包含一个针对 Orpheus-FastAPI 服务器优化的量化版本。

如果您在研究或应用中使用此量化模型，请引用：

@misc{orpheus-tts-2025,
  author = {Canopy Labs},
  title = {Orpheus-3b-0.1-ft: Text-to-Speech Model},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/canopylabs/orpheus-3b-0.1-ft}}
}

@misc{orpheus-quantised-2025,
  author = {Lex-au},
  title = {Orpheus-3b-FT-Q8_0: Quantised TTS Model with FastAPI Server},
  note = {GGUF quantisation of canopylabs/orpheus-3b-0.1-ft},
  year = {2025},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/lex-au/Orpheus-3b-FT-Q8_0.gguf}}
}