M

Mini Ichigo Llama3.2 3B S Instruct

由 Menlo 开发
Ichigo-llama3s系列模型是由Homebrew Research开发的多模态语言模型,原生支持音频和文本输入理解。该模型基于Llama-3架构,通过WhisperVQ作为音频文件标记器进行训练,提升了音频理解能力。
下载量 22
发布时间 : 10/8/2024
模型介绍
内容详情
替代品

模型简介

该模型主要面向研究应用,旨在提升大语言模型对音频的理解能力。支持英语语言处理,可用于音频到文本转换等任务。

模型特点

多模态输入支持
原生支持音频和文本输入理解,能够处理复杂的多模态任务。
音频语义标记
使用WhisperVQ作为音频文件标记器,扩展了音频语义标记实验。
研究导向设计
主要面向研究应用,特别关注提升大语言模型对音频的理解能力。

模型能力

音频理解
文本生成
多模态处理

使用案例

研究应用
音频语义理解研究
用于研究大语言模型对音频内容的理解能力。
在AudioBench评估中取得2.58-3.68的GPT-4-O评分
教育应用
语音辅助学习
可作为语音辅助学习工具的基础模型。