L

Llava Calm2 Siglip

由 cyberagent 开发
llava-calm2-siglip 是一个实验性的视觉语言模型,能够用日语和英语回答关于图像的问题。
下载量 3,930
发布时间 : 6/12/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于LLaVA 1.5的视觉语言指令跟随模型,采用calm2-7b-chat作为语言模型,siglip-so400m-patch14-384作为图像编码器。主要用于图像理解和多语言对话任务。

模型特点

多语言支持
支持日语和英语两种语言的图像理解和对话
高性能视觉理解
在LLaVA野外基准测试和Heron基准测试中表现优异
两阶段训练
第一阶段学习MLP投影层,第二阶段联合微调语言模型和投影层

模型能力

图像描述生成
多语言视觉问答
图像内容理解
跨模态对话

使用案例

图像理解
图像内容描述
对图像内容进行详细描述,如识别物体、场景等
能准确描述图像中的物体、场景和细节
视觉问答
基于图像的问答
回答用户关于图像内容的问题
能准确回答关于图像内容的各类问题