L

Llava Phi 2 3b

由 marianna13 开发
LLaVa-Phi-2-3B是一个开源的多模态聊天机器人模型,基于Phi-2架构微调而成,能够处理图像和文本输入并生成自然语言响应。
下载量 153
发布时间 : 1/28/2024
模型介绍
内容详情
替代品

模型简介

该模型通过微调Phi-2模型在多模态指令跟随数据上训练而成,具备视觉-语言理解能力,可用于图像描述、视觉问答等任务。

模型特点

多模态理解
能够同时处理图像和文本输入,理解视觉内容并生成相关响应
高效参数利用
仅3B参数规模下实现接近更大模型的性能表现
指令跟随
经过专门训练以遵循用户指令,适合对话式交互

模型能力

图像理解
视觉问答
图像描述生成
多模态对话
指令跟随

使用案例

教育
视觉辅助学习
帮助学生理解复杂图表或图像内容
无障碍技术
图像描述服务
为视障用户提供图像内容的语音描述
内容审核
多模态内容分析
同时分析图像和文本内容进行更全面的内容审核