L

Llava Jp 1.3b V1.1

由 toshi456 开发
LLaVA-JP是一个支持日语的多模态视觉语言模型,能够理解和生成关于输入图像的描述和对话。
下载量 90
发布时间 : 4/17/2024
模型介绍
内容详情
替代品

模型简介

该模型结合视觉编码器和文本解码器,支持高分辨率图像输入,专门针对日语视觉语言任务优化。

模型特点

高分辨率支持
通过scaling_on_scales技术支持768x768高分辨率图像输入
日语优化
专门针对日语视觉语言任务进行训练和优化
两阶段训练
先预训练视觉投影器,再进行指令微调

模型能力

图像理解
日语图像描述生成
日语视觉问答
多模态对话

使用案例

辅助技术
视觉辅助
为视障人士提供图像内容描述
内容分析
社交媒体分析
自动分析社交媒体图片内容并生成描述