M

Mini Ichigo Llama3.2 3B S Instruct

由 homebrewltd 开发
基于Llama-3架构的多模态语言模型,原生支持音频与文本输入理解,专注于提升大语言模型对音频的理解能力。
下载量 14
发布时间 : 10/8/2024
模型介绍
内容详情
替代品

模型简介

该系列模型通过WhisperVQ作为音频文件标记器,扩展了音频语义标记实验,支持英语语言处理。

模型特点

多模态输入支持
原生支持音频与文本双模态输入,可处理音频文件转换的语义标记。
高效音频处理
集成WhisperVQ音频标记器,实现高效的音频特征提取与转换。
指令微调优化
使用近10亿token的指令语音数据集进行微调,优化音频理解能力。

模型能力

音频理解
文本生成
多模态推理
指令跟随

使用案例

语音交互研究
语音指令理解
解析并执行包含音频输入的复杂指令
在AudioBench评估中达到3.68分(GPT-4-O评分标准)
教育技术
语言学习辅助
通过音频输入提供实时语言学习反馈