S

SESAME

由 tsunghanwu 开发
SESAME是一款开源多模态模型,基于LLaVA模型在各种基于指令的图像定位(分割)数据上进行微调训练而成。
下载量 37
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

SESAME主要用于大型多模态模型及聊天机器人的相关研究,由自回归语言模型和分割模型组成,支持图像定位和分割任务。

模型特点

多模态能力
结合语言模型和视觉分割模型,支持图像与文本的多模态交互。
开源模型
基于MIT许可证开源,便于研究和二次开发。
指令驱动的图像分割
能够根据自然语言指令完成图像定位和分割任务。

模型能力

图像分割
自然语言理解
多模态交互

使用案例

计算机视觉研究
图像分割研究
用于研究基于自然语言指令的图像分割技术。
多模态模型开发
聊天机器人增强
为聊天机器人添加图像理解和分割能力。