csm-1b开源语音生成模型 - 免费从文本和音频输入生成音频编码

首页

Csm 1b

由 chutesai 开发

CSM（对话语音模型）是由Sesame开发的10亿参数语音生成模型，可从文本和音频输入生成RVQ音频编码。

语音合成

Transformers

英语开源协议:Apache-2.0 #多说话人语音生成 #上下文感知TTS #Llama架构音频模型

下载量 814

发布时间 : 3/18/2025

模型简介

CSM是基于Llama主干网络和轻量级音频解码器的语音生成模型，支持从文本和音频输入生成Mimi音频编码，适用于文本转语音任务。

模型特点

多音色生成

基础生成模型可生成多种音色，支持通过上下文提示优化音色表现

上下文感知

通过提供对话上下文（文本+音频）可显著提升生成质量

高效架构

基于Llama主干网络和轻量级解码器，平衡性能与效率

模型能力

文本转语音

多音色语音生成

上下文感知语音合成

使用案例

语音交互

对话式语音助手

结合LLM生成文本后转换为自然语音

实现更自然的语音交互体验

内容创作

有声内容生成

将文本内容自动转换为语音

高效生成有声书、播客等音频内容

🚀 CSM 1B (Safetensors)

CSM 1B (Safetensors) 是一个语音生成模型，可根据文本和音频输入生成 RVQ 音频代码。它转换自原始版本，采用 Safetensors FP16 格式，具有更新的配置和指向无门控 Llama 的代码。

🚀 快速开始

模型介绍

CSM（Conversational Speech Model）是 Sesame 推出的语音生成模型，能从文本和音频输入中生成 RVQ 音频代码。该模型架构采用 Llama 主干和一个较小的音频解码器，可生成 Mimi 音频代码。

版本信息

Safetensors 格式：来自此处，转换自原始版本为 Safetensors FP16 格式，还会跟踪下载情况。
发布时间：2025/03/13 发布 1B CSM 变体，代码可在 GitHub 上获取：SesameAILabs/csm。

📦 安装指南

git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

💻 使用示例

基础用法

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")
audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高级用法

当为模型提供上下文时，CSM 的效果最佳。你可以使用 Segment 为每个说话者的话语提供提示或上下文。

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)