I

Ichigo Llama3.1 S Base V0.3

由 homebrewltd 开发
Llama3-S系列模型是由Homebrew Research开发的多模态语言模型,原生支持音频与文本输入理解,基于Llama-3架构扩展了语音理解能力。
下载量 33
发布时间 : 9/9/2024
模型介绍
内容详情
替代品

模型简介

该模型在扩展词汇表基础上,使用9亿token的语音数据集进行了持续预训练,旨在提升大语言模型的语音理解能力。

模型特点

多模态输入支持
原生支持音频与文本输入理解,扩展了传统语言模型的能力边界。
语音理解优化
通过专门的数据集进行持续预训练,显著提升了语音理解能力。
高效训练
采用torchtune库实现最新的FSDP2训练代码,优化训练效率。

模型能力

音频理解
文本生成
多模态输入处理

使用案例

语音研究
语音指令理解
解析和理解语音输入的指令
在特定测试集上达到63.79 MMLU得分
教育研究
语言学习辅助
帮助学习者理解英语语音输入