C

Csm 1b

由 chutesai 开发
CSM(对话语音模型)是由Sesame开发的10亿参数语音生成模型,可从文本和音频输入生成RVQ音频编码。
下载量 814
发布时间 : 3/18/2025
模型介绍
内容详情
替代品

模型简介

CSM是基于Llama主干网络和轻量级音频解码器的语音生成模型,支持从文本和音频输入生成Mimi音频编码,适用于文本转语音任务。

模型特点

多音色生成
基础生成模型可生成多种音色,支持通过上下文提示优化音色表现
上下文感知
通过提供对话上下文(文本+音频)可显著提升生成质量
高效架构
基于Llama主干网络和轻量级解码器,平衡性能与效率

模型能力

文本转语音
多音色语音生成
上下文感知语音合成

使用案例

语音交互
对话式语音助手
结合LLM生成文本后转换为自然语音
实现更自然的语音交互体验
内容创作
有声内容生成
将文本内容自动转换为语音
高效生成有声书、播客等音频内容