开源CSM-1b语音生成模型 - 凭借文本和音频输入生成RVQ音频编码

首页

Csm 1b Safetensors Fp16

由 lunahr 开发

CSM（对话语音模型）是由Sesame开发的10亿参数语音生成模型，可通过文本和音频输入生成RVQ音频编码。

语音合成

Transformers

英语开源协议:Apache-2.0 #对话语音生成 #多说话人支持 #上下文感知合成

下载量 79

发布时间 : 4/25/2025

模型简介

该模型采用Llama主干网络和轻量级音频解码器，可生成Mimi音频编码，适用于文本转语音任务。

模型特点

多说话人支持

模型支持指定不同说话人ID，可生成不同音色的语音

上下文感知

能够利用对话上下文生成更自然的语音输出

高效架构

基于Llama主干网络和轻量级解码器，平衡性能与效率

模型能力

文本转语音

多说话人语音生成

上下文感知语音合成

使用案例

交互式语音应用

语音助手

为虚拟助手提供自然语音输出

在Sesame的交互式语音演示中展示

对话系统

生成连贯的对话语音

能够根据上下文调整语音风格

🚀 CSM 1B (Safetensors)

CSM 1B (Safetensors) 是一个将原始版本转换为各种 Safetensors 格式的语音生成模型，同时还会跟踪下载情况。

🚀 快速开始

2025 年 3 月 13 日，我们发布了 1B 版本的 CSM 变体。代码可在 GitHub 上获取：SesameAILabs/csm。

CSM（Conversational Speech Model）是 Sesame 推出的语音生成模型，它能根据文本和音频输入生成 RVQ 音频代码。该模型架构采用了 Llama 主干和一个较小的音频解码器，可生成 Mimi 音频代码。

经过微调的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。

此外，还有一个托管的 HuggingFace 空间可用于测试音频生成。

📦 安装指南

设置仓库：

python -m venv .venv
source .venv/bin/activate
curl -s -L https://raw.githubusercontent.com/SesameAILabs/csm/refs/heads/main/requirements.txt | pip install -r /dev/stdin

# 你需要访问 sesame/csm-1b 和 meta-llama/Llama-3.2-1B
huggingface-cli login

💻 使用示例

基础用法

生成一个句子：

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(device="cuda")

audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

高级用法

CSM 在提供上下文时效果最佳。你可以使用 Segment 为每个说话者的话语提供提示或上下文：

speakers = [0, 1, 0, 0]
transcripts = [
    "Hey how are you doing.",
    "Pretty good, pretty good.",
    "I'm great.",
    "So happy to be speaking to you.",
]
audio_paths = [
    "utterance_0.wav",
    "utterance_1.wav",
    "utterance_2.wav",
    "utterance_3.wav",
]

def load_audio(audio_path):
    audio_tensor, sample_rate = torchaudio.load(audio_path)
    audio_tensor = torchaudio.functional.resample(
        audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
    )
    return audio_tensor

segments = [
    Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
    for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
    text="Me too, this is some cool stuff huh?",
    speaker=1,
    context=segments,
    max_audio_length_ms=10_000,
)

torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)