Ichigo-llama3.1-s-base-v0.3开源多模态模型 - 支持音频文本输入理解

首页

Ichigo Llama3.1 S Base V0.3

由 homebrewltd 开发

Llama3-S系列模型是由Homebrew Research开发的多模态语言模型，原生支持音频与文本输入理解，基于Llama-3架构扩展了语音理解能力。

音频生成文本

Safetensors

英语开源协议:Apache-2.0 #语音文本双模态 #英语语音理解 #Llama3架构扩展

下载量 33

发布时间 : 9/9/2024

模型简介

该模型在扩展词汇表基础上，使用9亿token的语音数据集进行了持续预训练，旨在提升大语言模型的语音理解能力。

模型特点

多模态输入支持

原生支持音频与文本输入理解，扩展了传统语言模型的能力边界。

语音理解优化

通过专门的数据集进行持续预训练，显著提升了语音理解能力。

高效训练

采用torchtune库实现最新的FSDP2训练代码，优化训练效率。

模型能力

音频理解

文本生成

多模态输入处理

使用案例

语音研究

语音指令理解

解析和理解语音输入的指令

在特定测试集上达到63.79 MMLU得分

教育研究

语言学习辅助

帮助学习者理解英语语音输入

🚀 大语言模型 llama3s

这是由 Homebrew Research 开发的模型家族，原生支持理解音频和文本输入，主要用于研究应用，可进一步提升大语言模型的声音理解能力。

🚀 快速开始

此模型家族 llama3s 原生支持理解音频和文本输入。它在扩展词汇表 homebrewltd/llama3.1-s-whispervq-init 上进行持续预训练，使用了来自 homebrewltd/raw-speech-whispervq-v1 数据集的 9 亿个标记。

✨ 主要特性

模型开发者：Homebrew Research。
输入：文本和声音。
输出：文本。
模型架构：Llama - 3。
支持语言：英语。

📚 详细文档

预期用途

预期用例：该模型家族主要用于研究应用。此版本旨在进一步提升大语言模型的声音理解能力。
使用限制：严禁以任何违反适用法律法规的方式使用 llama3 - s。

训练过程

训练指标图像

以下是训练损失曲线的可视化快照。

image/png

MMLU 指标

模型	MMLU 得分
llama3.5 - instruct - 8b	69.40
ichigo - llama3.1 - s - v0.3: phase 3	63.79
ichigo - llama3.1 - s - v0.3: phase 2	63.08
ichigo - llama3.1 - s - base - v0.3	42.11
llama3.5 - instruct - v0.2	50.27

硬件配置

GPU 配置：10 个 NVIDIA A6000 - 48GB 的 GPU 集群。
GPU 使用时长：
- 持续训练：30 小时。

训练参数

使用 torchtune 库实现最新的 FSDP2 训练代码。

参数	持续训练
轮数	1
全局批量大小	480
学习率	2e - 4
学习率调度器	带热身的余弦调度器
优化器	AdamW 融合优化器
热身步数	50
权重衰减	0.01
最大序列长度	512

引用信息

BibTeX：

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August},
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-15}