T

Trillion LLaVA 7B FP16

由 trillionlabs 开发
Trillion-LLaVA-7B是一个具备图像理解能力的视觉语言模型,通过英文视觉语言指令对训练,展现出卓越的跨语言视觉推理能力。
下载量 14
发布时间 : 4/20/2025
模型介绍
内容详情
替代品

模型简介

该模型基于Trillion-7B-preview开发,采用与LLaVA相同的架构和训练策略,专注于视觉语言理解任务,特别展示了在韩语视觉推理任务中的出色表现。

模型特点

跨语言视觉推理能力
仅使用英文视觉语言对训练,却在韩语视觉推理任务中表现出色
两阶段训练策略
采用与LLaVA相同的两阶段训练方法,确保模型性能
多语言基础
强大的多语言能力实现跨语言视觉推理的有效迁移

模型能力

图像理解
视觉问答
跨语言视觉推理
多模态理解

使用案例

视觉问答系统
多语言视觉问答
支持英文和韩文的图像相关问题解答
在MMBENCH韩文测试中达到0.61的评分
教育辅助
多语言学习辅助
帮助学习者通过视觉内容理解不同语言