stable-codec-speech-16k开源语音编解码模型 - 高效压缩与生成语音数据

首页

Stable Codec Speech 16k

由 stabilityai 开发

基于Transformer架构的高质量低比特率语音编解码模型，专为语音数据压缩和生成建模设计

音频生成

Safetensors

英语开源协议:其他 #低比特率语音编码 #Transformer编解码 #语音合成基础

下载量 1,072

发布时间 : 1/10/2025

模型简介

该模型通过将音频波形编码为离散标记进行处理，可高效压缩存储语音信号并解码还原原始音频，为语音生成和理解应用提供基础工具

模型特点

高质量低比特率编码

专为语音数据优化的压缩技术，在保持高质量的同时实现低比特率

生成建模友好

输出格式特别适合作为语音生成类模型的输入或训练目标

商业友好许可

年收入低于100万美元的组织可免费用于商业用途

模型能力

语音信号压缩

音频流传输优化

语音编码研究

语音合成基础工具

使用案例

通信增强

实时通讯平台

优化语音通话的数据传输效率

降低带宽需求同时保持语音质量

语音技术开发

文本转语音系统

作为语音生成模型的预处理/后处理组件

对话式AI

支持语音交互系统的开发

🚀 stable-codec-speech-16k模型卡片

stable-codec-speech-16k 是一个基于Transformer的编解码器模型，旨在实现高质量、低比特率的音频编码。它通过将音频波形编码为离散的令牌，之后再将这些令牌解码回原始音频波形来处理音频。

请注意：对于年营收达到100万美元（或等值当地货币）及以上的个人或组织，无论营收来源如何，在商业使用Stable Codec、其任何衍生作品（如“微调”模型）或其输出之前，必须直接从Stability AI获得企业商业许可。您可以在https://stability.ai/enterprise提交企业许可申请。更多信息请参考Stability AI的社区许可协议：https://stability.ai/license。

🚀 快速开始

如需使用说明，请参考我们的GitHub仓库。

✨ 主要特性

高效音频编码：能够将音频波形编码为离散令牌，实现高质量、低比特率的音频编码。
广泛应用场景：可用于语音信号的高效压缩、增强基于语音的应用、音频编码和语音合成的研究与开发，以及下游应用的开发。

📚 详细文档

模型描述

开发者：Stability AI
模型类型：Transformer音频编解码器模型
模型详情：此发布的模型是一个语音编解码器，旨在将现实世界的语音数据压缩成适合生成式建模的格式。它为开发语音理解和生成的下游应用（如文本转语音系统和对话式AI模型）提供了基础工具。请查看我们的arXiv页面和Github仓库以获取详细信息。

许可证

社区许可：对于年营收低于100万美元（或等值当地货币）的组织和个人，可免费用于研究、非商业和商业用途。如果您的年营收超过100万美元，任何对该模型或其衍生作品的商业使用都需要直接从Stability AI获得企业许可。您可以在https://stability.ai/enterprise提交企业许可申请。更多信息请参考Stability AI的社区许可协议：https://stability.ai/license。