T

Turkish LLaVA V0.1

由 ytu-ce-cosmos 开发
一个专为多模态视觉指令跟随任务设计的土耳其语视觉语言模型,能够同时处理视觉(图像)和文本输入,理解并执行土耳其语提供的指令。
下载量 86
发布时间 : 10/31/2024
模型介绍
内容详情
替代品

模型简介

该模型采用LLaVA架构,集成了土耳其语Llama语言模型,能够处理图像和文本输入,执行视觉推理和指令跟随任务。

模型特点

多模态处理能力
能够同时处理视觉(图像)和文本输入,实现跨模态理解。
土耳其语支持
专门针对土耳其语优化的视觉语言模型,适合土耳其语用户。
指令跟随
能够理解并执行用户提供的视觉和文本指令。
OCR增强
通过包含书籍封面的11万轮多轮指令数据训练,提升了OCR相关任务表现。

模型能力

图像理解
文本生成
视觉推理
多模态对话
指令跟随

使用案例

视觉问答
图像内容描述
根据用户提供的图像,生成详细的土耳其语描述。
示例中成功描述了小狗在花园中的场景。
视觉推理
基于图像内容回答用户提出的问题。
教育
书籍封面识别
识别书籍封面并提供相关信息。