orpheus_3b_0.1_ft_16bit开源语音大模型 - 免费生成高质量同理心文本语音

首页

Orpheus 3b 0.1 Ft 16bit

由 Prince-1 开发

基于羊驼模型的尖端语音大语言模型，专为高质量、富有同理心的文本转语音生成而设计

语音合成

Transformers

支持多种语言开源协议:Apache-2.0 #零样本声音克隆 #情感可控语音合成 #低延迟流式TTS

下载量 60

发布时间 : 5/1/2025

模型简介

该模型通过Unsloth和Huggingface的TRL库实现了2倍速训练，能够生成拟人化语音，支持零样本声音克隆和情感控制，适用于实时语音合成场景。

模型特点

拟人化语音合成

能够生成具有自然语调、情感和节奏的语音，超越现有闭源模型

零样本声音克隆

无需预训练即可克隆特定声音特征

情感控制

通过简单标签控制语音的情感特征

低延迟处理

实时应用场景下约200毫秒流式延迟，输入流式处理可降至100毫秒

模型能力

高质量文本转语音

声音特征克隆

情感语音合成

实时流式语音生成

使用案例

语音合成应用

虚拟助手语音

为虚拟助手生成自然、富有情感的语音

提升用户体验和互动质量

有声读物制作

自动将文本转换为富有表现力的语音

降低制作成本，提高生产效率

实时语音交互系统

用于需要低延迟语音反馈的应用场景

实现接近实时的语音交互体验

🚀 上传的模型

本项目上传了一个经过微调的模型，该模型基于Llama架构，在文本转语音（TTS）任务上表现出色，能够生成高质量、富有情感的语音。

模型基本信息

属性	详情
基础模型	unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit
标签	text-generation-inference、transformers、unsloth、llama、trl、tts、text-to-speech
许可证	apache-2.0
库名称	transformers
语言	en
数据集	MrDragonFox/Elise

模型微调信息

微调者：Prince-1
许可证：apache-2.0
基础微调模型：unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit

这个Llama模型使用 Unsloth 和Huggingface的TRL库进行训练，训练速度提升了2倍。

Orpheus TTS是一款基于Llama的先进语音大语言模型（Speech-LLM），专为高质量、富有同理心的文本转语音生成而设计。该模型经过微调，能够实现接近人类水平的语音合成，在清晰度、表现力和实时流式传输性能方面表现卓越。

✨ 主要特性

模型能力

类人语音：具有自然的语调、情感和节奏，优于当前最先进的闭源模型。
零样本语音克隆：无需事先微调即可克隆语音。
引导式情感和语调：通过简单的标签控制语音和情感特征。
低延迟：实时应用的流式传输延迟约为200ms，通过输入流式传输可降低至约100ms。

模型来源

GitHub仓库：https://github.com/canopyai/Orpheus-TTS
博客文章：https://canopylabs.ai/model-releases
Colab推理笔记本：笔记本链接

🚀 快速开始

查看我们的Colab笔记本（Colab链接）或GitHub仓库（GitHub链接），了解如何在我们的微调模型上轻松进行推理。

📄 许可证

本模型采用apache-2.0许可证。

⚠️ 重要提示

请勿在未经同意的情况下使用我们的模型进行模仿、传播错误信息或欺骗行为（包括虚假新闻或欺诈性电话），或进行任何非法或有害活动。使用此模型即表示您同意遵守所有适用的法律和道德准则。我们对任何使用行为不承担责任。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文