许可证:MPL-2.0
数据集:
- mozilla-foundation/common_voice_17_0
基础模型:
- meta-llama/Llama-3.1-8B-Instruct
DiVA Llama 3 模型卡
这是一个端到端的语音助手模型,能够处理语音和文本输入。该模型采用蒸馏损失进行训练,更多细节请参阅预印本。
您可以在diva-audio.github.io查看模型的实际表现,或在Weights&Biases上查看完整的训练日志。
引用
BibTeX:
@misc{DiVA,
title={{D}istilling an {E}nd-to-{E}nd {V}oice {A}ssistant {W}ithout {I}nstruction {T}raining {D}ata},
author={William Held and Ella Li and Michael Ryan and Weiyan Shi and Yanzhe Zhang and Diyi Yang},
year={2024},
eprint={2410.02678},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.02678},
}
推理示例
from transformers import AutoModel
import librosa
import wget
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)
speech_data, _ = librosa.load(filename, sr=16_000)
model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)
print(model.generate([speech_data]))
print(model.generate([speech_data], ["像海盗一样简短回答"]))
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)
speech_data2, _ = librosa.load(filename, sr=16_000)
print(
model.generate(
[speech_data, speech_data2],
["像海盗一样简短回答", "像纽约人一样简短回答"],
)
)
目录
训练详情
训练数据
该模型基于CommonVoice语料库进行训练。
训练过程
本模型以512条录音为批次大小进行了7,000步梯度训练,学习率从5e-5线性衰减至零,并进行了70步的线性预热。
环境影响
- 硬件类型: V4-256 TPU
- 使用时长: 11小时
- 云服务提供商: Google Cloud
- 计算区域: 美国中部C区
硬件
本模型在Google Cloud的V4-256 TPU上完成训练。
软件
本模型使用Levanter框架训练
模型卡作者 [可选]
Will Held
模型卡联系人
held@stanford.edu