DiVA-llama-3-v0-8b开源语音助手模型 - 支持语音文本输入，实用又免费

首页

Diva Llama 3 V0 8b

由 WillHeld 开发

DiVA Llama 3是一个端到端的语音助手模型，能够处理语音和文本输入，采用蒸馏损失进行训练。

文本生成音频

Transformers

#端到端语音助手 #多模态输入 #蒸馏训练

下载量 2,596

发布时间 : 6/20/2024

模型简介

该模型是一个结合语音和文本处理能力的端到端语音助手，基于Llama 3架构开发，能够理解并响应语音指令。

模型特点

端到端语音助手

能够直接处理语音输入，无需单独语音识别模块

蒸馏训练

采用蒸馏损失进行训练，提高模型效率

多模态输入

同时支持语音和文本输入

模型能力

语音理解

文本生成

多轮对话

风格化响应（如海盗风格、纽约人风格）

使用案例

智能助手

语音交互助手

通过语音指令与设备交互

能够理解并响应自然语音指令

多语言应用

多语言语音助手

支持不同语言的语音输入和响应

🚀 Diva Llama 3 模型卡片

这是一个端到端的语音助手模型，能够处理语音和文本输入。该模型使用蒸馏损失进行训练。更多细节请参考预印本。

你可以在diva-audio.github.io查看模型的实际运行情况，或者在Weights&Biases上查看完整的训练日志。

🚀 快速开始

你可以参考以下推理示例来使用该模型：

from transformers import AutoModel
import librosa
import wget

filename = wget.download(
    "https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)

speech_data, _ = librosa.load(filename, sr=16_000)

model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)

print(model.generate([speech_data]))
print(model.generate([speech_data], ["Reply Briefly Like A Pirate"]))

filename = wget.download(
    "https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)

speech_data2, _ = librosa.load(filename, sr=16_000)

print(
    model.generate(
        [speech_data, speech_data2],
        ["Reply Briefly Like A Pirate", "Reply Briefly Like A New Yorker"],
    )
)

✨ 主要特性

该模型是端到端的语音助手模型，能同时处理语音和文本输入，使用蒸馏损失进行训练。

📦 安装指南

文档未提供相关安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import AutoModel
import librosa
import wget

filename = wget.download(
    "https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)

speech_data, _ = librosa.load(filename, sr=16_000)

model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)

print(model.generate([speech_data]))
print(model.generate([speech_data], ["Reply Briefly Like A Pirate"]))

filename = wget.download(
    "https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)

speech_data2, _ = librosa.load(filename, sr=16_000)

print(
    model.generate(
        [speech_data, speech_data2],
        ["Reply Briefly Like A Pirate", "Reply Briefly Like A New Yorker"],
    )
)

高级用法

文档未提供高级用法示例，暂不展示。

📚 详细文档

训练详情

训练数据

该模型在CommonVoice语料库上进行训练。

训练过程

该模型进行了7000次梯度步骤的训练，批量大小为512条录音，学习率从5e - 5线性衰减到零，线性预热步骤为70步。

环境影响

硬件类型：V4 - 256 TPU
使用时长：11小时
云服务提供商：Google Cloud
计算区域：美国中部C

硬件

该模型在Google Cloud的V4 - 256 TPU上进行训练。

软件

该模型使用Levanter进行训练。

🔧 技术细节

模型架构和目标

文档未提供相关技术细节，暂不展示。

计算基础设施

硬件

该模型在Google Cloud的V4 - 256 TPU上进行训练。

软件

该模型使用Levanter进行训练。

📄 许可证

本模型使用MPL - 2.0许可证。

引用

BibTeX:

@misc{DiVA,
      title={{D}istilling an {E}nd-to-{E}nd {V}oice {A}ssistant {W}ithout {I}nstruction {T}raining {D}ata}, 
      author={William Held and Ella Li and Michael Ryan and Weiyan Shi and Yanzhe Zhang and Diyi Yang},
      year={2024},
      eprint={2410.02678},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.02678}, 
}

模型卡片作者

Will Held

模型卡片联系方式

held@stanford.edu

信息表格

属性	详情
模型类型	端到端语音助手模型
训练数据	该模型在CommonVoice语料库上进行训练
基础模型	meta-llama/Llama-3.1-8B-Instruct
许可证	MPL - 2.0