基础模型:
openai-community/gpt2
数据集:
speechcolab/gigaspeech
parler-tts/mls_eng_10k
reach-vb/jenny_tts_dataset
MikhailT/hifi-tts
ylacombe/expresso
keithito/lj_speech
collabora/ai4bharat-shrutilipi
语言:
en
hi
库名称: transformers
许可证: cc-by-sa-4.0
管道标签: text-to-speech
模型卡 indri-0.1-350m-tts
Indri 是一个能够执行 TTS、ASR 和音频延续的音频模型系列。这是我们系列中的中等大小模型(350M),支持 2 种语言的 TTS 任务:
英语
印地语
模型详情
模型描述
indri-0.1-350m-tts
是一个基于 Transformer 架构的新型、超小型、轻量级 TTS 模型。
它将音频建模为标记,可以生成高质量的音频,并保持说话者风格的一致性。
示例
文本
示例
朋友们,我们今天发布了一个新的小型且强大的模型。
兄弟姐妹们,这是我们的荣幸,我们共同梦想将这个伟大的国家推向新的高度。
Hello 朋友们,欢迎来到语音技术的未来
在这个模型库中,出现了一个名为 Indri 的新模型。
主要特点
小型,基于 GPT-2 中等架构。该方法可以扩展到任何基于自回归 Transformer 的架构。
超快。使用我们的自托管服务选项 ,在 RTX6000Ada NVIDIA GPU 上,模型可以达到高达 300 toks/s(每秒生成 3 秒音频)的速度,首次标记时间低于 20ms。
在 RTX6000Ada 上,它可以支持约 300 个序列的批量大小,完整上下文长度为 1024 个标记。
支持小提示(<5 秒)的语音克隆。
支持 2 种语言的代码混合文本输入 - 英语和印地语。
详细信息
模型类型:基于 GPT-2 的语言模型
大小:3.5 亿参数
语言支持:英语、印地语
许可证:此模型不用于商业用途。仅作为研究展示。
技术细节
以下是模型工作原理的简要说明:
将输入文本转换为标记
在基于 GPT-2 的 Transformer 模型上运行自回归解码,生成音频标记
解码音频标记(使用 Kyutai/mimi )为音频
请阅读我们的博客此处 了解有关如何构建它的更多技术细节。
如何开始使用模型
🤗 管道
使用以下代码开始使用模型。管道是开始使用模型的最佳方式。
import torch
import torchaudio
from transformers import pipeline
model_id = '11mlabs/indri-0.1-350m-tts'
task = 'indri-tts'
pipe = pipeline(
task,
model=model_id,
device=torch.device('cuda:0' ),
trust_remote_code=True
)
output = pipe(['Hi, my name is Indri and I like to talk.' ], speaker = '[spkr_63]' )
torchaudio.save('output.wav' , output[0 ]['audio' ][0 ], sample_rate=24000 )
可用说话者
说话者 ID
说话者名称
[spkr_63]
🇬🇧 👨 书籍朗读者
[spkr_67]
🇺🇸 👨 影响者
[spkr_68]
🇮🇳 👨 书籍朗读者
[spkr_69]
🇮🇳 👨 书籍朗读者
[spkr_70]
🇮🇳 👨 励志演讲者
[spkr_62]
🇮🇳 👨 厚重书籍朗读者
[spkr_53]
🇮🇳 👩 食谱朗读者
[spkr_60]
🇮🇳 👩 书籍朗读者
[spkr_74]
🇺🇸 👨 书籍朗读者
[spkr_75]
🇮🇳 👨 企业家
[spkr_76]
🇬🇧 👨 自然爱好者
[spkr_77]
🇮🇳 👨 影响者
[spkr_66]
🇮🇳 👨 政治家
自托管服务
git clone https://github.com/cmeraki/indri.git
cd indri
pip install -r requirements.txt
sudo apt update -y
sudo apt upgrade -y
sudo apt install ffmpeg -y
python -m inference --model_path 11mlabs/indri-0.1-350m-tts --device cuda:0 --port 8000
引用
如果您在研究中使用了此模型,请引用:
@misc{indri-multimodal-alm,
author = {11mlabs},
title = {Indri: 多模态音频语言模型},
year = {2024},
publisher = {GitHub},
journal = {GitHub 仓库},
howpublished = {\url{https://github.com/cmeraki/indri}},
email = {compute@merakilabs.com}
}
BibTex
nanoGPT
Kyutai/mimi
@techreport{kyutai2024moshi,
title={Moshi: 一个用于实时对话的语音-文本基础模型},
author={Alexandre D\'efossez and Laurent Mazar\'e and Manu Orsini and
Am\'elie Royer and Patrick P\'erez and Herv\'e J\'egou and Edouard Grave and Neil Zeghidour},
year={2024},
eprint={2410.00037},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2410.00037},
}
Whisper
@misc{radford2022whisper,
doi = {10.48550/ARXIV.2212.04356},
url = {https://arxiv.org/abs/2212.04356},
author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
title = {通过大规模弱监督实现稳健语音识别},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org 永久、非独占许可}
}
silero-vad
@misc{Silero VAD,
author = {Silero 团队},
title = {Silero VAD: 预训练的企业级语音活动检测器 (VAD)、数字检测器和语言分类器},
year = {2024},
publisher = {GitHub},
journal = {GitHub 仓库},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}