Speechless-llama3.2-v0.1开源模型 - 免TTS直接将音频转为语义标记

首页

Speechless Llama3.2 V0.1

由 Menlo 开发

无言是一个紧凑的开源文本到语义模型（10亿参数），旨在直接将音频转换为离散的语义标记，无需依赖传统的文本转语音（TTS）模型。

语音识别

Safetensors

支持多种语言开源协议:Apache-2.0 #音频语义标记 #跨语言支持 #端到端语音处理

下载量 39

发布时间 : 12/28/2024

模型简介

无言通过直接将文本转换为语义语音标记来消除传统TTS→ASR流程的复杂性，简化训练过程，节省资源，并实现可扩展性，尤其适用于资源匮乏的语言。

模型特点

直接音频转语义标记

无需依赖传统TTS模型，直接将音频转换为离散的语义标记。

多语言支持

支持英语和越南语，特别适合资源匮乏的语言。

高效训练

简化训练流程，节省计算资源。

模型能力

音频转语义标记

多语言处理

高效资源利用

使用案例

语音处理

语音转语义标记

将音频直接转换为语义标记，用于后续处理或分析。

词错误率低至3.27（英语）和3.99（越南语）。

研究

语音模型研究

用于研究直接音频转语义标记的新方法。

🚀 Speechless - 无声语音语义模型

Speechless是一个轻量级的开源文本到语义模型（拥有10亿参数），旨在将音频直接转换为离散的语义表示，无需借助文本转语音（TTS）模型。与传统的依赖音频生成和处理（TTS → ASR）的流程不同，Speechless通过直接将文本转换为语义语音标记，简化了训练过程，节省了资源，并实现了可扩展性，尤其适用于资源有限的语言。该模型在约400小时的英语数据和约1000小时的越南语数据上进行了训练，是Ichigo v0.5系列的核心组件。

模型图片

🚀 快速开始

你可以使用以下示例代码来加载模型：

import torch
from transformers import pipeline

model_id = "homebrewltd/Speechless-llama3.2-v0.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research")

>>> [{'generated_text': '<|reserved_special_token_69|>I’m Speechless – A Model Developed by Homebrew Research.assistant\n\n<|sound_1968|><|sound_0464|><|sound_0642|><|duration_02|><|sound_0634|><|sound_0105|><|duration_02|><|sound_1745|><|duration_02|><|sound_1345|><|sound_0210|><|sound_1312|><|sound_1312|>'}]

✨ 主要特性

轻量级设计：Speechless模型参数仅10亿，具有轻量级的特点，便于部署和使用。
无需TTS模型：直接将文本转换为语义语音标记，绕过了传统的TTS和ASR流程，简化了训练过程。
多语言支持：在英语和越南语数据上进行训练，支持多语言处理，尤其适用于资源有限的语言。
可扩展性：简化的流程和高效的设计使得模型具有良好的可扩展性。

📚 详细文档

模型概述

开发者：Homebrew Research
模型架构：Llama
模型类型：文本到语义
支持语言：英语和越南语
许可证：Apache 2.0

属性	详情
模型类型	文本到语义
支持语言	英语和越南语
许可证	Apache 2.0
开发者	Homebrew Research
模型架构	Llama

资源链接

博客：Blog post

预期用途

预期用例：该模型主要用于研究目的。此版本专注于将音频直接转换为离散的语义表示，无需使用文本转语音（TTS）模型。
禁止用途：严禁以任何违反适用法律法规的方式使用Ichigo Whisper。

训练参数

参数	值
训练轮数	2
全局批次大小	144
学习率	3e - 4
学习率调度器	Cosine
优化器	AdamW
预热比例	0.05
权重衰减	0.01
最大序列长度	512
梯度裁剪范数	1.0

评估结果

越南语

模型名称	测试数据集	测试样本数	词错误率（WER）
Speechless v0.1	viet_bud500	7500	3.99

英语

模型名称	测试数据集	测试样本数	词错误率（WER）
Speechless v0.1	librispeech_asr	2620	3.27

引用信息

BibTeX：

@article{Speechless 2024,
  title={Speechless},
  author={Homebrew Research},
  year=2024,
  month=December},
  url={https://huggingface.co/homebrewltd/Speechless-llama3.2-v0.1}