开源Ichigo-llama3.1-s-base-v0.3模型 - 支持音文输入，提升语音理解能力

首页

Ichigo Llama3.1 S Base V0.3

由 Menlo 开发

Llama3-S 是一个支持音频和文本输入的多模态语言模型，基于 Llama-3 架构开发，专注于提升语音理解能力。

音频生成文本

Safetensors

英语开源协议:Apache-2.0 #语音文本双模态 #大语言模型扩展 #英语语音理解

下载量 18

发布时间 : 9/9/2024

模型简介

该模型在扩展词汇表基础上进行了持续预训练，原生支持音频和文本输入，主要用于研究应用，特别是语音理解方面的能力提升。

模型特点

多模态输入支持

原生支持音频和文本输入，能够处理语音和文本数据。

语音理解优化

通过持续预训练和扩展词汇表，显著提升了语音理解能力。

高效训练

使用最新的 FSDP2 训练代码，优化了训练效率和资源利用。

模型能力

音频转文本

文本生成

语音理解

使用案例

研究应用

语音理解研究

用于研究大语言模型在语音理解方面的能力提升。

🚀 语音指令语言模型 Llama3-S

Llama3-S 是 Homebrew Research 开发的模型家族，可原生理解音频和文本输入，主要用于研究应用，旨在提升大语言模型的声音理解能力。

🚀 快速开始

Llama3-S 家族模型能够原生理解音频和文本输入，并输出文本内容。该模型家族基于 Llama-3 架构，在英文数据集上进行训练。

✨ 主要特性

多模态输入：支持文本和声音作为输入。
原生音频理解：能够直接处理音频输入，无需额外的转换步骤。
研究导向：主要用于研究应用，可进一步提升大语言模型的声音理解能力。

📚 详细文档

模型详情

我们开发并发布了 llama3s 模型家族。该家族模型可原生理解音频和文本输入。

我们在扩展词汇表 homebrewltd/llama3.1-s-whispervq-init 上进行持续预训练，使用了来自 homebrewltd/raw-speech-whispervq-v1 数据集的 9 亿个标记。

模型开发者：Homebrew Research 输入：文本和声音输出：文本 模型架构：Llama-3 语言：英语

预期用途

预期用例：该模型家族主要用于研究应用。此版本旨在进一步提升大语言模型的声音理解能力。 禁止用途：严禁以任何违反适用法律法规的方式使用 llama3-s。

训练过程

训练指标图像

以下是训练损失曲线的可视化快照。

image/png

MMLU 评估结果

模型	MMLU 得分
llama3.5-instruct-8b	69.40
ichigo-llama3.1-s-v0.3: phase 3	63.79
ichigo-llama3.1-s-v0.3: phase 2	63.08
ichigo-llama3.1-s-base-v0.3	42.11
llama3.5-instruct-v0.2	50.27

硬件配置

GPU 配置：10 个 NVIDIA A6000-48GB GPU 集群。 GPU 使用时长：

持续训练：30 小时。

训练参数

我们使用 torchtune 库实现最新的 FSDP2 训练代码。

参数	持续训练
轮数	1
全局批量大小	480
学习率	2e-4
学习率调度器	带热身的余弦调度器
优化器	AdamW 融合优化器
热身步数	50
权重衰减	0.01
最大序列长度	512

引用信息

BibTeX：

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August},
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-15}