C

Csm 1b

由 sesame 开发
CSM是Sesame开发的10亿参数规模语音生成模型,可根据文本和音频输入生成RVQ音频编码
下载量 65.03k
发布时间 : 3/6/2025
模型介绍
内容详情
替代品

模型简介

对话语音模型,采用Llama主干网络和轻量级音频解码器架构,能生成Mimi音频编码,适用于文本转语音任务

模型特点

上下文感知生成
支持通过上下文音频片段生成更自然的对话语音
多音色支持
基础模型可生成多种音色(需配合微调实现特定音色)
高效架构
结合Llama主干网络与轻量级解码器,平衡性能与效率

模型能力

文本转语音生成
对话语音合成
多说话人语音生成

使用案例

语音交互
虚拟助手
为对话系统生成自然语音响应
演示中展示了流畅的对话交互效果
内容创作
有声内容生成
将文本内容转换为语音