模型简介
模型特点
模型能力
使用案例
许可证: cc-by-nc-4.0 语言:
- 越南语 基础模型:
- SWivid/F5-TTS 任务标签: 文本转语音 新版本: erax-ai/EraX-Smile-UnixSex-F5 标签:
- 文本转语音
- 越南语
- 女声
- 男声
- 中性
- 语音克隆 数据集:
- amphion/Emilia-Dataset
EraX-Smile-UnixSex-F5:为F5-TTS赋予越南语中性风格(支持在线零样本语音克隆!)✨
嗨,越南AI探索者们!👋
这个模型基于出色的F5-TTS架构(arXiv:2410.06885)。为了让它掌握越南语的细腻之处,我们使用了一个庞大的数据集进行了微调:超过2,700,000个纯越南语样本!这包括公开数据和1000小时的私有数据集(我们对使用权深表感激!🙏)。
完全开源代码 https://github.com/EraX-AI/viF5TTS/tree/main/src
遗憾的是...
基础F5-TTS模型使用了Emilia数据集进行预训练,该数据集遵循BY-NC 4.0许可证(非商业用途)。不便之处,敬请谅解。
我们也有从头开始训练的商业用途模型。如需更多信息,请联系我们。
训练历程:
这个模型可是下足了功夫!它经历了大约12个周期的训练,几乎达到了过拟合的程度。 整个过程可谓跌宕起伏——整整一周的计算,伴随着偶尔的崩溃和重启🔥😅,但我们为它的进步感到无比自豪!
我们希望EraX-Smile-UnixSex-F5能为社区的道德和创意用途做出有益贡献。
它真的有效吗?来听听吧!🎧
好吧,真相时刻。这是我们输入模型的样本声音(“参考音频”):
语音克隆样本
参考音频(女声)
生成音频(女声)
下载并播放生成音频。参考音频(男声)
生成音频(男声)
下载并播放生成音频。想自己试试这个魔法(或疯狂)吗?🧙♂️
这个仓库有4个模型,请全部尝试。
- model_42000.safetensors
- model_45000.safetensors
- model_48000.safetensors
- overfit.safetensors
处理这个模型的代码在我们的GitHub上:EraX Smile Github。去看看吧!
开始使用应该不会太痛苦。下载这个仓库并克隆我们的GitHub后,你可以尝试以下代码:
# Ubuntu: sudo apt install ffmpeg
# Windows请参考 https://www.geeksforgeeks.org/how-to-install-ffmpeg-on-windows/
# 下载我们的GitHub代码
pip install numpy==1.26
pip install matplotlib
pip install vinorm
pip install f5-tts
pip install librosa
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # 告诉它使用哪个GPU(或者忽略,如果你有耐心用CPU的话!)
from vinorm import TTSnorm # 首先需要标准化越南语文本
from f5tts_wrapper import F5TTSWrapper # 我们方便的包装类
# --- 配置 ---
# 从*这个*仓库下载的模型检查点路径
# 确保这个路径指向实际的.pth或.ckpt或safetensors文件!
eraX_ckpt_path = "path/to/your/downloaded/EraX-Smile-UnixSex-F5/models/model_42000.safetensors" # <-- 修改这个!
# 你想要克隆的语音路径
ref_audio_path = "path/to/your/reference_voice.wav" # <-- 修改这个!
# 从这个仓库下载的词汇表文件路径
vocab_file = "path/to/your/downloaded/EraX-Smile-UnixSex-F5/models/vocab.txt" # <-- 修改这个!
# 保存生成音频的路径
output_dir = "output_audio"
# --- 文本 ---
# 与参考音频匹配的文本(帮助模型学习语音)。请确保它与参考音频匹配!
ref_text = "Thậm chí không ăn thì cũng có cảm giác rất là cứng bụng, chủ yếu là cái phần rốn...trở lên. Em có cảm giác khó thở, và ngủ cũng không ngon, thường bị ợ hơi rất là nhiều"
# 你想要克隆语音说的文本
text_to_generate = "Trong khi đó, tại một chung cư trên địa bàn P.Vĩnh Tuy (Q.Hoàng Mai), nhiều người sống trên tầng cao giật mình khi thấy rung lắc mạnh nên đã chạy xuống sảnh tầng 1. Cư dân tại đây cho biết, họ chưa bao giờ cảm thấy ảnh hưởng của động đất mạnh như hôm nay."
# --- 开始吧! ---
print("初始化TTS引擎...(可能需要一点时间)")
tts = F5TTSWrapper(
model_name="F5TTS_v1_Base",
vocoder_name="vocos",
ckpt_path=eraX_ckpt_path,
vocab_file=vocab_file,
use_ema=True,
target_sample_rate=24000,
n_mel_channels = 100,
hop_length = 256,
win_length = 1024,
n_fft = 1024,
ode_method = 'euler',
)
# 标准化参考文本(让模型更容易处理)
ref_text_norm = TTSnorm(ref_text)
# 准备输出文件夹
os.makedirs(output_dir, exist_ok=True)
print("处理参考语音...")
# 一次性将参考语音输入模型
# 提供ref_text以获得更好的质量,或者设置ref_text=""以使用Whisper进行自动转录(如果已安装)
tts.preprocess_reference(
ref_audio_path=ref_audio_path,
ref_text=ref_text_norm,
clip_short=True # 将参考音频保持在可管理的长度(约12秒)
)
print(f"使用的参考音频时长:{tts.get_current_audio_length():.2f} 秒")
# --- 生成新语音 ---
print("用克隆语音生成新语音...")
# 标准化我们想要说的文本
text_norm = TTSnorm(text_to_generate)
# 你可以轻松生成多个句子
# 只需向这个列表添加更多标准化字符串
sentences = [text_norm]
for i, sentence in enumerate(sentences):
output_path = os.path.join(output_dir, f"generated_speech_{i+1}.wav")
# 实际生成发生在这里!
tts.generate(
text=sentence,
output_path=output_path,
nfe_step=32, # 去噪步骤。越多=越慢但可能更好?(默认:32)
cfg_strength=3.0, # 如何强烈地坚持参考语音风格?(默认:2.0)
speed=1.0, # 让它说得更快或更慢(默认:1.0)
cross_fade_duration=0.12, # 如果文本被分成块,平滑过渡(默认:0.15)
sway_sampling_coef=-1
)
print(f"完成!音频已保存到:{output_path}")
print("\n全部完成!检查你的输出文件夹。")
-
如需完整的Web界面和Gradio控制,请克隆并使用F5-TTS Github的原始仓库
-
我们使用了Vinorm Team的酷库进行越南语文本标准化。
-
下一步是什么? 🤔 EraX团队(就是我们!)总是在捣鼓和尝试让事情变得更好(或者至少不那么糟糕!)。 我们希望带来更多更新。让我们知道你的想法——反馈、错误报告,或者只是打个招呼,都非常欢迎!
- [X] ⭐ 发布越南语男声检查点
- [ ] 📝 实时TTS流式传输代码
- [ ] 🔥 发布基于Piper的模型,可以在...iPhone、Android、Rasberry Pi 4或浏览器上运行🔥
⚠️ 关于负责任使用的重要说明 ⚠️
-
语音克隆技术强大且伴随着重大的道德责任。
-
预期用途:本模型旨在用于创意目的、辅助工具、个人项目以及明确同意且优先考虑道德考量的应用。
-
禁止用途:我们强烈谴责并严格禁止将本模型用于任何恶意或不道德的目的,包括但不限于:
- 创建未经同意的深度伪造或未经许可冒充他人。
- 生成错误信息、欺诈内容或诽谤材料。
- 骚扰、虐待或任何形式的犯罪活动。
-
用户责任:使用本模型即表示你同意负责任且道德地使用。你对你生成的内容负全部责任,并确保其符合所有适用的法律和道德标准。创作者(EraX团队)对滥用本模型的行为不承担任何责任。
请深思熟虑且道德地使用这项技术。
⚠️ Lưu ý Quan trọng về Việc Sử dụng có Trách nhiệm ⚠️
-
Sức mạnh và Trách nhiệm: Công nghệ nhân bản giọng nói sở hữu sức mạnh to lớn và đi kèm với những trách nhiệm đạo đức hết sức quan trọng.
-
Mục đích Sử dụng Dự kiến: Mô hình này được tạo ra nhằm phục vụ các mục đích sáng tạo, phát triển công cụ hỗ trợ tiếp cận, thực hiện dự án cá nhân và các ứng dụng khác nơi có sự đồng thuận rõ ràng từ các bên liên quan và các yếu tố đạo đức luôn được đặt lên hàng đầu.
-
Nghiêm cấm Sử dụng Sai trái: Chúng tôi cực lực lên án và nghiêm cấm tuyệt đối việc sử dụng mô hình này cho bất kỳ mục đích xấu xa, phi đạo đức nào, bao gồm nhưng không giới hạn ở:
- Tạo ra deepfake hoặc mạo danh người khác khi chưa được sự cho phép hoặc đồng thuận rõ ràng.
- Phát tán thông tin sai lệch, tạo nội dung lừa đảo hoặc các tài liệu mang tính phỉ báng, bôi nhọ.
- Thực hiện hành vi quấy rối, lạm dụng hoặc bất kỳ hoạt động tội phạm nào khác.
-
Trách nhiệm của Người dùng: Khi sử dụng mô hình này, bạn cam kết hành động một cách có trách nhiệm và tuân thủ các chuẩn mực đạo đức. Bạn phải chịu trách nhiệm hoàn toàn về nội dung do mình tạo ra và đảm bảo rằng nội dung đó tuân thủ mọi quy định pháp luật hiện hành và các tiêu chuẩn đạo đức. Đội ngũ phát triển(Nhóm EraX)hoàn toàn không chịu trách nhiệm cho bất kỳ hành vi lạm dụng nào đối với mô hình này.
Lời kêu gọi: Xin hãy sử dụng công nghệ này một cách có suy xét, thận trọng và đạo đức.
许可证事项 📜 我们的代码采用MIT许可证,跟随Whisper等巨头的脚步。使用它,破坏它,希望用它做出酷炫的东西! 遗憾的是,基础F5-TTS模型使用了Emilia数据集进行预训练,该数据集遵循BY-NC 4.0许可证(非商业用途)。不便之处,敬请谅解。
慷慨一点?(引用) 🙏 这个模型真的帮到你了吗?或者只是提供了一时的娱乐?如果是的话,给我们的GitHub仓库点个星⭐会让我们开心一整天! 如果你在写一些正式的东西(比如研究论文)并想给我们一个致谢,这是bibtex片段:
@misc{EraXSmileF5_2024,
author = {Nguyễn Anh Nguyên nguyen@erax.ai and The EraX Team},
title = {EraX-Smile-UnixSex-F5: Người Việt sành tiếng




