Speecht5 Finetuned Voxpopuli It

S

Speecht5 Finetuned Voxpopuli It

由 Sandiago21 开发

基于微软SpeechT5架构微调的意大利语文本转语音模型，在VOXPOPULI数据集上训练

其他开源协议:MIT #意大利语TTS #语音合成 #VOXPOPULI微调

下载量 35

发布时间 : 7/12/2023

模型简介

该模型专门用于将意大利语文本转换为自然语音，适用于语音合成应用场景

模型特点

意大利语优化

专门针对意大利语语音特性进行优化训练

基于SpeechT5架构

采用微软先进的SpeechT5语音合成架构

VOXPOPULI数据集训练

使用高质量VOXPOPULI意大利语数据集进行训练

模型能力

意大利语文本转语音

语音合成

使用案例

语音应用

语音助手

为意大利语语音助手提供自然语音输出

有声读物

将意大利语文本内容转换为语音

🚀 SpeechT5-it

SpeechT5-it 模型是 microsoft/speecht5_tts 在 VOXPOPULI 数据集上微调后的版本，可用于文本转语音任务，在评估集上损失为 0.46。

🚀 快速开始

此模型主要用于文本转语音任务，基于 microsoft/speecht5_tts 在 VOXPOPULI 数据集上进行微调。在评估集上取得了损失为 0.4600 的结果。

📚 详细文档

模型概述

该模型是 microsoft/speecht5_tts 在 VOXPOPULI 数据集上的微调版本，在评估集上有如下表现：

损失：0.4600

训练和评估数据

训练和评估使用了 Facebook 的 VOXPOPULI 数据集。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：1e - 05
训练批次大小：4
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：16
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：100
训练轮数：40

训练结果

训练损失	轮数	步数	验证损失
0.5641	1.0	712	0.5090
0.5394	2.0	1424	0.4915
0.5277	3.0	2136	0.4819
0.5136	4.0	2848	0.4798
0.5109	5.0	3560	0.4733
0.5078	6.0	4272	0.4731
0.5033	7.0	4984	0.4692
0.5021	8.0	5696	0.4691
0.4984	9.0	6408	0.4670
0.488	10.0	7120	0.4641
0.491	11.0	7832	0.4641
0.4918	12.0	8544	0.4647
0.4933	13.0	9256	0.4622
0.499	14.0	9968	0.4619
0.4906	15.0	10680	0.4608
0.4884	16.0	11392	0.4622
0.4847	17.0	12104	0.4616
0.4916	18.0	12816	0.4592
0.4845	19.0	13528	0.4600
0.4788	20.0	14240	0.4594
0.4746	21.0	14952	0.4607
0.4875	22.0	15664	0.4615
0.4831	23.0	16376	0.4597
0.4798	24.0	17088	0.4595
0.4727	25.0	17800	0.4592
0.4736	26.0	18512	0.4598
0.4746	27.0	19224	0.4608
0.4728	28.0	19936	0.4589
0.4771	29.0	20648	0.4593
0.4743	30.0	21360	0.4588
0.4785	31.0	22072	0.4601
0.4757	32.0	22784	0.4597
0.4731	33.0	23496	0.4598
0.4746	34.0	24208	0.4593
0.4715	35.0	24920	0.4599
0.4769	36.0	25632	0.4622
0.4778	37.0	26344	0.4605
0.4798	38.0	27056	0.4594
0.4694	39.0	27768	0.4607
0.468	40.0	28480	0.4600

框架版本

Transformers 4.30.0.dev0
Pytorch 2.0.1 + cu117
Datasets 2.13.1
Tokenizers 0.13.3

📄 许可证

本项目采用 MIT 许可证。

属性	详情
模型类型	文本转语音
训练数据	Facebook 的 VOXPOPULI 数据集

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24