许可协议:Apache-2.0
语言:
- 英语
标签:
- 文本转语音
基础模型:sesame/csm-1b
任务类型:text-to-speech
库名称:transformers
CSM 1B(Safetensors格式)
此版本为Safetensors格式,源自此处,配置文件已更新,代码指向未受限的Llama模型。
由原始版本转换为Safetensors FP16格式,并支持下载统计。
2025年3月13日 - 我们发布了10亿参数的CSM变体。代码已在GitHub开源:SesameAILabs/csm。
CSM(对话语音模型)是Sesame开发的语音生成模型,可从文本和音频输入生成RVQ音频编码。模型架构采用Llama主干网络和轻量级音频解码器,可输出Mimi音频编码。
经过微调的CSM变体驱动了我们博客文章中展示的交互式语音演示。
您也可以通过托管在HuggingFace空间的实例测试音频生成功能。
使用方法
配置仓库环境:
git clone git@github.com:SesameAILabs/csm.git
cd csm
python3.10 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
生成语句示例:
from generator import load_csm_1b
import torchaudio
generator = load_csm_1b(device="cuda")
audio = generator.generate(
text="你好,来自Sesame的问候。",
speaker=0,
context=[],
max_audio_length_ms=10_000,
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
提供上下文时CSM效果最佳。您可以使用Segment
为每个说话人语句添加上下文提示:
speakers = [0, 1, 0, 0]
transcripts = [
"最近过得怎么样?",
"还不错,挺好的。",
"我状态很好。",
"很高兴能和你交流。",
]
audio_paths = [
"utterance_0.wav",
"utterance_1.wav",
"utterance_2.wav",
"utterance_3.wav",
]
def load_audio(audio_path):
audio_tensor, sample_rate = torchaudio.load(audio_path)
audio_tensor = torchaudio.functional.resample(
audio_tensor.squeeze(0), orig_freq=sample_rate, new_freq=generator.sample_rate
)
return audio_tensor
segments = [
Segment(text=transcript, speaker=speaker, audio=load_audio(audio_path))
for transcript, speaker, audio_path in zip(transcripts, speakers, audio_paths)
]
audio = generator.generate(
text="我也是,这些技术很酷对吧?",
speaker=1,
context=segments,
max_audio_length_ms=10_000,
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
常见问题
模型是否包含预置音色?
开源版本为基础生成模型,可生成多种音色,但未针对特定音色进行微调。
能否进行对话交互?
CSM是专用音频生成模型,非多模态LLM,无法生成文本。建议搭配独立LLM进行文本生成。
支持其他语言吗?
由于训练数据混杂,模型具备有限非英语处理能力,但效果可能不佳。
滥用警告 ⚠️
本项目提供高质量语音生成模型仅供研究教育用途。我们严禁以下行为:
- 身份伪造:未经许可模仿真实人物声音
- 虚假信息:制造欺诈性内容如假新闻/诈骗通话
- 违法活动:任何非法或恶意用途
使用者需遵守法律法规及伦理准则。我们对滥用行为不承担责任,并强烈谴责技术的不道德应用。
开发团队
Johan Schalkwyk、Ankit Kumar、Dan Lyth、Sefik Emre Eskimez、Zack Hodari、Cinjon Resnick、Ramon Sanabria、Raven Jiang及Sesame团队。