C

Csm 1b

由 unsloth 开发
CSM(对话语音模型)是Sesame开发的1B参数语音生成模型,可从文本和音频输入生成RVQ音频编码。
下载量 2,667
发布时间 : 5/15/2025
模型介绍
内容详情
替代品

模型简介

CSM是基于Llama主干网络和轻量级音频解码器的语音生成模型,可生成Mimi音频编码。经过微调的CSM变体支持交互式语音演示。

模型特点

高效性能
使用Unsloth运行时提速1.5倍,内存减少58%
上下文感知
支持通过上下文音频片段提升生成质量
多说话人支持
可通过speaker参数控制不同说话人音色

模型能力

文本转语音生成
多说话人语音合成
上下文感知语音生成

使用案例

语音交互
对话式语音助手
结合LLM生成文本后转换为自然语音
实现更自然的语音交互体验
内容创作
有声内容生成
将文本内容转换为语音
快速生成播客、有声书等内容