库名称: transformers
标签:
- unsloth
- 文本转音频
- 序列到序列
许可证: cc-by-sa-4.0
数据集:
- KandirResearch/Speech2Speech
语言:
- 英语
基础模型:
- OuteAI/OuteTTS-0.3-500M
管道标签: 文本转音频
CiSiMi: 文本转语音(TTS)模型

概述
CiSiMi是一个早期的文本转音频模型原型,可以处理文本输入并以文本和音频形式响应。专为资源受限环境设计,它能够通过llama.cpp在CPU上高效运行,使得即使没有强大GPU也能实现高级语音合成。
"由于GPU资源有限,且对csm版本的发布和我无法运行它感到些许失望,不得不等待运行ASR+LLM+TTS组合所需的时间,我决定向妈妈求助,于是妈妈给了我'家庭版CiSiMi'!"
这个项目展示了开源工具在创建可访问语音技术方面的力量。虽然仍处于早期阶段,但它代表了向普及高级文本转音频能力迈出的一步。
技术细节
模型规格
- 架构: 基于OuteTTS-0.3-500M
- 语言: 英语
- 管道: 文本转音频
- 参数: 5亿
- 训练数据集大小: 约1.5万样本
- 未来目标: 扩展到20万-50万数据集,使用5亿和10亿参数模型变体实现多轮对话,并添加实时流式传输功能。
训练方法
-
数据集准备:
-
音频生成:
-
模型训练:
使用指南
示例
向我解释重力是如何工作的!
安装
pip install outetts llama-cpp-python --upgrade
pip install huggingface_hub sounddevice
实现
import torch
import outetts
import numpy as np
from huggingface_hub import hf_hub_download
from outetts.wav_tokenizer.audio_codec import AudioCodec
from outetts.version.v2.prompt_processor import PromptProcessor
from outetts.version.playback import ModelOutput
model_path = hf_hub_download(
repo_id="KandirResearch/CiSiMi-v0.1",
filename="unsloth.Q8_0.gguf",
)
model_config = outetts.GGUFModelConfig_v2(
model_path=model_path,
tokenizer_path="KandirResearch/CiSiMi-v0.1",
)
interface = outetts.InterfaceGGUF(model_version="0.3", cfg=model_config)
audio_codec = AudioCodec()
prompt_processor = PromptProcessor("KandirResearch/CiSiMi-v0.1")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
gguf_model = interface.get_model()
def get_audio(tokens):
outputs = prompt_processor.extract_audio_from_tokens(tokens)
if not outputs:
return None
audio_tensor = audio_codec.decode(torch.tensor([[outputs]], dtype=torch.int64).to(device))
return ModelOutput(audio_tensor, audio_codec.sr)
def extract_text_from_tts_output(tts_output):
text = ""
for line in tts_output.strip().split('\n'):
if '<|audio_end|>' in line or '<|im_end|>' in line:
continue
if '<|' in line:
word = line.split('<|')[0].strip()
if word:
text += word + " "
else:
text += line.strip() + " "
return text.strip()
def generate_response(instruction):
prompt = f"<|im_start|>\nInstructions:\n{instruction}\n<|im_end|>\nAnswer:\n"
gen_cfg = outetts.GenerationConfig(
text=prompt,
temperature=0.6,
repetition_penalty=1.1,
max_length=4096,
speaker=None
)
input_ids = prompt_processor.tokenizer.encode(prompt)
tokens = gguf_model.generate(input_ids, gen_cfg)
output_text = prompt_processor.tokenizer.decode(tokens, skip_special_tokens=False)
if "<|audio_end|>" in output_text:
first_part, _, _ = output_text.partition("<|audio_end|>")
if "<|audio_end|>\n<|im_end|>\n" not in first_part:
first_part += "<|audio_end|>\n<|im_end|>\n"
extracted_text = extract_text_from_tts_output(first_part)
audio_start_pos = first_part.find("<|audio_start|>\n") + len("<|audio_start|>\n")
audio_end_pos = first_part.find("<|audio_end|>\n<|im_end|>\n") + len("<|audio_end|>\n<|im_end|>\n")
if audio_start_pos >= len("<|audio_start|>\n") and audio_end_pos > audio_start_pos:
audio_tokens_text = first_part[audio_start_pos:audio_end_pos]
audio_tokens = prompt_processor.tokenizer.encode(audio_tokens_text)
audio_output = get_audio(audio_tokens)
if audio_output is not None and hasattr(audio_output, 'audio') and audio_output.audio is not None:
audio_numpy = audio_output.audio.cpu().numpy()
if audio_numpy.ndim > 1:
audio_numpy = audio_numpy.squeeze()
return extracted_text, (audio_output.sr, audio_numpy)
return output_text, None
question = "生命的意义是什么?"
response_text, response_audio = generate_response(question)
print(response_text)
if response_audio is not None:
if "ipykernel" in sys.modules:
from IPython.display import display, Audio
display(Audio(response_audio[1], rate=response_audio[0], autoplay=True))
else:
import sounddevice as sd
sd.play(response_audio[1], samplerate=response_audio[0])
sd.wait()
限制与未来工作
这个早期原型有几个需要改进的地方:
- 训练数据有限(约1.5万样本)
- 基本的提示/聊天模板结构
- 优化训练超参数的机会
- 实现多轮对话功能的潜力
潜在限制: 这类模型会快速填满上下文窗口,使得较小模型通常更实用。
致谢与引用
该模型基于以下开源项目构建:
- OuteAI/OuteTTS-0.3-500M - 基础模型
- gruhit-patel/alpaca_speech_instruct - 初始数据集
- hexgrad/Kokoro-82M - TTS生成
- OpenAI Whisper - 语音验证
- Unsloth - 训练优化