OpenVision开源视觉编码器 - 高性价比用于多模态学习，性能媲美OpenAI CLIP

首页

Openvision Vit So400m Patch14 224

由 UCSC-VLAA 开发

OpenVision是一个完全开源、高性价比的先进视觉编码器家族，专为多模态学习设计，性能匹配甚至超越OpenAI CLIP。

多模态融合

Transformers

开源协议:Apache-2.0 #完全开源视觉编码器 #多模态学习优化 #边缘设备友好

下载量 41

发布时间 : 5/6/2025

模型简介

OpenVision是一系列视觉编码器，旨在为多模态学习提供高效、灵活的解决方案。它支持从轻量级到大规模的模型部署，适用于多种多模态任务。

模型特点

完全开源

OpenVision的训练数据和训练方法完全开源，填补了现有方案中数据或方法未公开的空白。

高性价比

OpenVision在性能上匹配甚至超越OpenAI CLIP，同时提供了更优的成本效益。

灵活部署

提供从590万到6.321亿不等的参数量选择，支持从轻量级到大规模的灵活部署。

多模态集成

在LLaVA等多模态框架中集成时，表现出优异的性能。

模型能力

图像特征提取

多模态学习

视觉编码

使用案例

多模态学习

多模态模型集成

将OpenVision集成到LLaVA等多模态框架中，提升模型性能。

性能匹配甚至超越OpenAI CLIP。

边缘设备部署

轻量级视觉编码

使用小参数量模型在边缘设备上进行高效的视觉编码。

支持轻量级、边缘设备友好的多模态部署。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Openvision Vit So400m Patch14 224

模型简介

模型特点

模型能力

使用案例

🚀 OpenVision模型项目

🚀 快速开始

项目摘要

项目页面

代码仓库

📄 许可证