Trillion-LLaVA-7B-FP16开源视觉语言模型 - 免费部署实现卓越图像理解与跨语言推理

Trillion LLaVA 7B FP16

由 trillionlabs 开发

Trillion-LLaVA-7B是一个具备图像理解能力的视觉语言模型，通过英文视觉语言指令对训练，展现出卓越的跨语言视觉推理能力。

下载量 14

发布时间 : 4/20/2025

模型简介

该模型基于Trillion-7B-preview开发，采用与LLaVA相同的架构和训练策略，专注于视觉语言理解任务，特别展示了在韩语视觉推理任务中的出色表现。

跨语言视觉推理能力

仅使用英文视觉语言对训练，却在韩语视觉推理任务中表现出色

两阶段训练策略

采用与LLaVA相同的两阶段训练方法，确保模型性能

多语言基础

强大的多语言能力实现跨语言视觉推理的有效迁移

图像理解

视觉问答

跨语言视觉推理

多模态理解

视觉问答系统

多语言视觉问答

支持英文和韩文的图像相关问题解答

在MMBENCH韩文测试中达到0.61的评分

教育辅助

多语言学习辅助

帮助学习者通过视觉内容理解不同语言

模型	MMBENCH 英文	MMBENCH 韩文	SEED - I 英文	SEED - I 韩文	MMStar 英文	MMStar 韩文	K - DTCB
Llava - 1.5 - 7b	0.64	0.43	0.66	0.52	0.34	0.33	0.30
Llava - 1.6 - mistral - 7b	0.68	0.49	0.72	0.61	0.36	0.33	0.30
Trillion - LLaVA - 7B	0.66	0.61	0.68	0.66	0.37	0.37	0.33