Trillion-LLaVA-7B开源视觉语言模型 - 免费使用轻松实现图像理解

Trillion LLaVA 7B

由 trillionlabs 开发

Trillion-LLaVA-7B是一个能够理解图像的视觉语言模型（VLM），基于Trillion-7B-preview基础模型开发。

下载量 199

发布时间 : 4/20/2025

模型简介

该模型是一个视觉语言模型，能够理解和处理图像与文本的结合任务，特别在跨语言视觉推理方面表现出色。

跨语言视觉推理能力

尽管仅使用英语视觉语言指令对进行训练，模型在韩语视觉推理任务中表现出色。

多语言基础

模型强大的多语言基础使其能够在无需语言特定视觉训练数据的情况下，有效地跨语言迁移视觉推理能力。

两阶段训练策略

采用与LLaVA相同的数据集和两阶段训练策略，确保模型性能的稳定性和可靠性。

图像理解

视觉问答

多语言视觉推理

视觉问答

多语言视觉问答

在英语和韩语的视觉问答任务中提供准确的回答。

在MMBENCH、SEED-I、MMStar和K-DTCB等基准测试中表现优异。

跨语言视觉推理

韩语视觉推理

尽管仅使用英语数据进行训练，模型在韩语视觉推理任务中表现出色。

在MMBENCH韩语测试中得分0.61，优于其他对比模型。

模型	MMBENCH 英文	MMBENCH 韩文	SEED - I 英文	SEED - I 韩文	MMStar 英文	MMStar 韩文	K - DTCB
Llava - 1.5 - 7b	0.64	0.43	0.66	0.52	0.34	0.33	0.30
Llava - 1.6 - mistral - 7b	0.68	0.49	0.72	0.61	0.36	0.33	0.30
Trillion - LLaVA - 7B	0.66	0.61	0.68	0.66	0.37	0.37	0.33