mini-Ichigo-llama3.2-3B-s-instruct开源模型 - 支持音频文本输入，提升音频理解能力

首页

Mini Ichigo Llama3.2 3B S Instruct

由 homebrewltd 开发

基于Llama-3架构的多模态语言模型，原生支持音频与文本输入理解，专注于提升大语言模型对音频的理解能力。

文本生成音频

Safetensors

英语开源协议:Apache-2.0 #音频文本理解 #多模态LLM #WhisperVQ标记

下载量 14

发布时间 : 10/8/2024

模型简介

该系列模型通过WhisperVQ作为音频文件标记器，扩展了音频语义标记实验，支持英语语言处理。

模型特点

多模态输入支持

原生支持音频与文本双模态输入，可处理音频文件转换的语义标记。

高效音频处理

集成WhisperVQ音频标记器，实现高效的音频特征提取与转换。

指令微调优化

使用近10亿token的指令语音数据集进行微调，优化音频理解能力。

模型能力

音频理解

文本生成

多模态推理

指令跟随

使用案例

语音交互研究

语音指令理解

解析并执行包含音频输入的复杂指令

在AudioBench评估中达到3.68分（GPT-4-O评分标准）

教育技术

语言学习辅助

通过音频输入提供实时语言学习反馈

🚀 [Ichigo-llama3s模型]

[Ichigo-llama3s] 模型家族由 Homebrew Research 开发并发布，该家族模型能够原生理解音频和文本输入，拓展了语义标记实验，在音频理解能力上有独特优势，主要用于研究应用。

🚀 快速开始

你可以通过 Google Colab Notebook 尝试使用此模型。

首先，需要将音频文件转换为声音标记：

device = "cuda" if torch.cuda.is_available() else "cpu"
if not os.path.exists("whisper-vq-stoks-medium-en+pl-fixed.model"):
    hf_hub_download(
        repo_id="jan-hq/WhisperVQ",
        filename="whisper-vq-stoks-medium-en+pl-fixed.model",
        local_dir=".",
    )
vq_model = RQBottleneckTransformer.load_model(
        "whisper-vq-stoks-medium-en+pl-fixed.model"
    ).to(device)
vq_model.ensure_whisper(device)
def audio_to_sound_tokens(audio_path, target_bandwidth=1.5, device=device):

    wav, sr = torchaudio.load(audio_path)
    if sr != 16000:
        wav = torchaudio.functional.resample(wav, sr, 16000)
    with torch.no_grad():
        codes = vq_model.encode_audio(wav.to(device))
        codes = codes[0].cpu().tolist()

    result = ''.join(f'<|sound_{num:04d}|>' for num in codes)
    return f'<|sound_start|>{result}<|sound_end|>'

然后，可以像使用其他大语言模型一样对该模型进行推理：

def setup_pipeline(model_path, use_4bit=False, use_8bit=False):
    tokenizer = AutoTokenizer.from_pretrained(model_path)

    model_kwargs = {"device_map": "auto"}

    if use_4bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
        )
    elif use_8bit:
        model_kwargs["quantization_config"] = BitsAndBytesConfig(
            load_in_8bit=True,
            bnb_8bit_compute_dtype=torch.bfloat16,
            bnb_8bit_use_double_quant=True,
        )
    else:
        model_kwargs["torch_dtype"] = torch.bfloat16

    model = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)

    return pipeline("text-generation", model=model, tokenizer=tokenizer)

def generate_text(pipe, messages, max_new_tokens=64, temperature=0.0, do_sample=False):
    generation_args = {
        "max_new_tokens": max_new_tokens,
        "return_full_text": False,
        "temperature": temperature,
        "do_sample": do_sample,
    }

    output = pipe(messages, **generation_args)
    return output[0]['generated_text']

# Usage
llm_path = "homebrewltd/llama3.1-s-instruct-v0.2"
pipe = setup_pipeline(llm_path, use_8bit=True)

✨ 主要特性

多模态输入：原生支持音频和文本输入。
语义标记拓展：使用 WhisperVQ 作为音频文件的标记器，拓展了语义标记实验。

📚 详细文档

模型详情

我们开发并发布了 Ichigo-llama3s 模型家族，该家族模型能够原生理解音频和文本输入。

我们从 homebrewltd/mini-Ichigo-llama3.2-3B-s-base 开始，使用 Instruction Speech WhisperVQ v3 数据集中近 10 亿个标记，将 WhisperVQ 作为音频文件的标记器，拓展了语义标记实验。

模型开发者：Homebrew Research。输入：文本和声音。输出：文本。 模型架构：Llama - 3。语言：英语。

预期用途

预期用例：该模型家族主要用于研究应用，此版本旨在进一步提升大语言模型的声音理解能力。 禁止用途：严禁以任何违反适用法律法规的方式使用 llama3 - s。

训练过程

训练指标图像

以下是训练损失曲线的可视化快照： image/png

MMLU 评估

模型	MMLU 分数
llama3.1 - instruct - 8b	69.40
ichigo - llama3.1 - s - v0.3: phase 3	63.79
ichigo - llama3.1 - s - v0.3: phase 2	63.08
ichigo - llama3.1 - s - base - v0.3	42.11
mini - ichigo - llama3.2 - 3B - s - instruct	58.60
mini - ichigo - llama3.2 - 3B - s - base	59.61
llama3.1 - s - instruct - v0.2	50.27

AudioBench 评估

模型基准	Open - hermes Instruction Audio (GPT - 4 - O judge 0:5)	Alpaca Instruction Audio (GPT - 4 - O judge 0:5)
[Llama3.1 - s - v2](https://huggingface.co/homebrewltd/llama3 - s - instruct - v0.2)	3.45	3.53
[Ichigo - llama3.1 - s v0.3 - phase2 - cp7000](https://huggingface.co/homebrewltd/Ichigo - llama3.1 - s - instruct - v0.3 - phase - 2)	3.42	3.62
[Ichigo - llama3.1 - s v0.3 - phase2 - cplast](https://huggingface.co/jan - hq/llama3 - s - instruct - v0.3 - checkpoint - last)	3.31	3.6
[Ichigo - llama3.1 - s v0.3 - phase3](https://huggingface.co/homebrewltd/Ichigo - llama3.1 - s - instruct - v0.3 - phase - 3)	3.64	3.68
[mini - Ichigo - llama3.2 - 3B - s - instruct](https://huggingface.co/homebrewltd/mini - Ichigo - llama3.2 - 3B - s - instruct)	2.58	2.07
[Qwen2 - audio - 7B](https://huggingface.co/Qwen/Qwen2 - Audio - 7B)	2.63	2.24

硬件

GPU 配置：10 个 NVIDIA A6000 - 48GB GPU 集群。 GPU 使用情况：

微调：12 小时。

训练参数

我们使用 torchtune 库实现最新的 FSDP2 训练代码。

参数	指令微调
轮数	1
全局批量大小	360
学习率	7e - 5
学习率调度器	带热身的 LambdaLR
优化器	Adam torch fused
热身比例	0.01
权重衰减	0.005
最大序列长度	4096

示例

良好示例

点击切换示例 1

点击切换示例 2

误解示例

点击切换示例 3

偏离示例

点击切换示例 4

引用信息

BibTeX：

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August,
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-20}