I

Ichigo Llama3.1 S Instruct V0.3 Phase 2

由 homebrewltd 开发
Ichigo-llama3s系列模型原生支持音频和文本输入理解,基于Llama-3架构,使用WhisperVQ作为音频文件的tokenizer。
下载量 16
发布时间 : 9/17/2024
模型介绍
内容详情
替代品

模型简介

该模型主要用于研究应用,旨在提升大语言模型的音频理解能力。支持英语,输入为文本和音频,输出为文本。

模型特点

多模态输入支持
原生支持音频和文本输入理解,扩展了传统LLM的能力。
WhisperVQ音频tokenizer
使用WhisperVQ作为音频文件的tokenizer,提升了音频处理的效率和质量。
研究导向
主要用于研究应用,特别关注音频理解能力的提升。

模型能力

音频理解
文本生成
多模态输入处理

使用案例

研究应用
音频指令理解
理解并执行基于音频的指令,如语音命令。
在语音指令基准测试中获得较高分数。
多模态对话系统
构建支持音频和文本输入的对话系统。