C

Csm 1b

由 eustlb 开发
CSM是由Sesame开发的1B参数语音生成模型,可通过文本和音频输入生成RVQ音频编码,支持带上下文的语音生成。
下载量 5,144
发布时间 : 3/26/2025
模型介绍
内容详情
替代品

模型简介

基于Llama主干网络和轻量级音频解码器的语音生成模型,可输出Mimi音频编码,适用于文本转语音任务。

模型特点

上下文感知生成
支持通过历史对话音频和文本作为上下文输入,优化当前语音生成效果
高效架构设计
采用Llama主干网络结合轻量级解码器,平衡生成质量与计算效率
多模态输入
支持同时处理文本和音频输入,实现更自然的语音交互

模型能力

文本转语音生成
上下文感知语音合成
多说话人语音生成

使用案例

交互式语音应用
语音助手
为对话系统提供自然语音输出
演示案例显示可生成带情感语调的语音
内容创作
有声内容生成
将文本内容自动转换为语音