MoonViT-SO-400M开源视觉编码器 - 免费用于图像特征高效提取

首页

Moonvit SO 400M

由 moonshotai 开发

MoonViT是一款原生分辨率的视觉编码器，基于SigLIP-SO-400M进行初始化和持续预训练，适用于图像特征提取任务。

图像增强

Transformers

开源协议:MIT #原生分辨率视觉编码 #SigLIP预训练 #多模态特征提取

下载量 275

发布时间 : 4/10/2025

模型简介

MoonViT是一款专为图像特征提取设计的视觉编码器，其训练基于SigLIP-SO-400M模型，能够处理高分辨率图像并提取有效特征。

模型特点

原生分辨率支持

MoonViT能够处理原生分辨率的图像，无需降采样即可提取特征。

基于SigLIP-SO-400M

模型的初始化和持续预训练均基于SigLIP-SO-400M，继承了其强大的视觉特征提取能力。

高效特征提取

专为图像特征提取优化，能够生成高质量的图像特征表示。

模型能力

图像特征提取

高分辨率图像处理

使用案例

计算机视觉

图像理解

提取图像特征用于后续的图像分类、目标检测等任务。

高质量的图像特征表示

多模态学习

作为视觉编码器与语言模型结合，构建多模态系统。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Moonvit SO 400M

模型简介

模型特点

模型能力

使用案例

🚀 MoonViT

🚀 快速开始

💻 使用示例

基础用法

📄 许可证