Yi VL 6B

由 01-ai 开发

Yi-VL是01.AI开发的开源多模态视觉语言模型，支持中英文图文对话，在MMMU和CMMMU基准测试中表现优异。

文本生成图像

PyTorch

开源协议:Apache-2.0 #双语多模态 #高分辨率图像理解 #视觉问答

下载量 336

发布时间 : 12/25/2023

模型介绍

内容详情

替代品

模型简介

基于Yi大语言模型系列开发的多模态版本，能够理解图像内容并进行多轮对话，支持448×448高分辨率图像理解。

模型特点

双语多模态理解

同时支持中英文的图文对话能力，包括图像中的文本识别

高分辨率图像处理

支持448×448的高分辨率图像理解能力

三阶段训练流程

通过渐进式训练策略优化视觉与语言特征的融合

开源可商用

完全开放学术研究并免费商用，申请后自动获得许可

模型能力

视觉问答

图像内容理解

多轮图文对话

中英文双语处理

图像文本识别

使用案例

教育

多学科视觉问答

解答涉及多个学科的图像相关问题

在MMMU和CMMMU基准测试中排名第一

内容分析

图像信息提取

从图像中提取、组织和总结信息

能识别复杂视觉细节

license: apache-2.0 library_name: pytorch tags:

llava license_name: yi-license license_link: LICENSE pipeline_tag: image-text-to-text

Yi视觉语言模型

更卓越的双语多模态模型

🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel

👩‍🚀 在 GitHub 上提问或讨论想法！

👋 加入我们的💬 微信群（中文）！

📚 在 Yi学习中心成长！

📕 目录

什么是Yi-VL？
- 概述
- 模型
- 特性
- 架构
- 训练
- 局限性
为什么选择Yi-VL？
如何使用Yi-VL？
- 快速开始
- 硬件要求
其他
- 致谢与归属
  - 使用的开源项目列表
- 许可证

什么是Yi-VL？

概述

**Yi视觉语言（Yi-VL）模型是Yi大语言模型（LLM）**系列的开源多模态版本，能够理解、识别图像内容并进行多轮对话。
Yi-VL表现出卓越的性能，在最新的基准测试中排名第一，包括英语的MMMU和中文的CMMMU（基于截至2024年1月的数据）。
Yi-VL-34B是全球首个开源的34B视觉语言模型。

模型

Yi-VL已发布以下版本。

模型	下载
Yi-VL-34B	• 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel
Yi-VL-6B	• 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel

特性

Yi-VL提供以下功能：

多轮图文对话：Yi-VL可以同时接受文本和图像输入并生成文本输出。目前支持单张图像的多轮视觉问答。
双语文本支持：Yi-VL支持中英文对话，包括图像中的文本识别。
强大的图像理解能力：Yi-VL擅长分析视觉内容，是从图像中提取、组织和总结信息的高效工具。
精细的图像分辨率：Yi-VL支持448×448的高分辨率图像理解。

架构

Yi-VL采用LLaVA架构，主要由三个部分组成：

视觉Transformer（ViT）：使用CLIP ViT-H/14模型初始化，用于图像编码。
投影模块：设计用于将图像特征与文本特征空间对齐，由两层多层感知机（MLP）和层归一化组成。
大语言模型（LLM）：使用Yi-34B-Chat或Yi-6B-Chat初始化，在中英文理解和生成方面表现出色。

image/png

训练

训练流程

Yi-VL通过全面的三阶段训练过程，将视觉信息与Yi LLM的语义空间对齐：

阶段1：使用224×224的图像分辨率训练ViT和投影模块的参数，冻结LLM权重。训练利用了来自LAION-400M的1亿图文对数据集，主要目标是增强ViT在指定架构中的知识获取能力，并实现ViT与LLM的更好对齐。
阶段2：将ViT的图像分辨率提升至448×448，训练ViT和投影模块的参数。旨在进一步提升模型识别复杂视觉细节的能力。本阶段使用的数据集包括约2500万图文对，如LAION-400M、CLLaVA、LLaVAR、Flickr、VQAv2、RefCOCO、Visual7w等。
阶段3：训练整个模型（即ViT、投影模块和LLM）的参数。主要目标是增强模型在多模态聊天交互中的熟练度，使其能够无缝整合和解释视觉与语言输入。为此，训练数据集涵盖了约100万图文对的多样化来源，包括GQA、VizWiz VQA、TextCaps、OCR-VQA、Visual Genome、LAION GPT4V等。为确保数据平衡，我们对单一来源的最大数据贡献设置了上限，限制在不超过5万对。

以下是各阶段的参数配置。

阶段	全局批次大小	学习率	梯度裁剪	训练轮数
阶段1、2	4096	1e-4	0.5	1
阶段3	256	2e-5	1.0	2

训练资源消耗

训练消耗了128张NVIDIA A800（80G）GPU。
Yi-VL-34B的总训练时间约为10天，Yi-VL-6B约为3天。

局限性

这是Yi-VL的初始版本，存在一些已知限制。建议在采用任何模型前仔细评估潜在风险。

功能限制
- 支持视觉问答，但文本到3D、图像到视频等功能尚未支持。
- 仅支持单张图像输入，不支持多张图像。
幻觉问题
- 存在生成图像中不存在内容的可能性。
- 在包含多个对象的场景中，某些对象可能被错误识别或描述不够详细。
分辨率问题
- Yi-VL在448×448分辨率的图像上训练。推理时，任何分辨率的输入都会被调整为448×448。低分辨率图像可能导致信息丢失，更高分辨率的图像（超过448）不会带来额外知识。
Yi LLM的其他限制。

为什么选择Yi-VL？

技术报告

关于Yi系列模型的详细能力，请参阅Yi: Open Foundation Models by 01.AI。

引用

@misc{ai2024yi,
    title={Yi: Open Foundation Models by 01.AI},
    author={01. AI and : and Alex Young and Bei Chen and Chao Li and Chengen Huang and Ge Zhang and Guanwei Zhang and Heng Li and Jiangcheng Zhu and Jianqun Chen and Jing Chang and Kaidong Yu and Peng Liu and Qiang Liu and Shawn Yue and Senbin Yang and Shiming Yang and Tao Yu and Wen Xie and Wenhao Huang and Xiaohui Hu and Xiaoyi Ren and Xinyao Niu and Pengcheng Nie and Yuchi Xu and Yudong Liu and Yue Wang and Yuxuan Cai and Zhenyu Gu and Zhiyuan Liu and Zonghong Dai},
    year={2024},
    eprint={2403.04652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

基准测试

Yi-VL在MMMU和CMMMU两个先进基准测试中表现优于所有现有开源模型，这两个基准包含大量多学科多模态问题（基于截至2024年1月的数据）。

MMMU

image/png

CMMMU

image/png

展示案例

以下是详细描述和视觉问答的代表性示例，展示了Yi-VL的能力。

英文

image/png

中文

image/png

如何使用Yi-VL？

快速开始

详情请参考Yi GitHub仓库。

硬件要求

模型推理推荐的GPU示例：

Yi-VL-6B：RTX 3090、RTX 4090、A10、A30
Yi-VL-34B：4 × RTX 4090、A800（80 GB）

其他

致谢与归属

本项目使用了开源软件/组件。我们感谢这些开发者对开源社区的贡献。

使用的开源项目列表

LLaVA

作者：Haotian Liu, Chunyuan Li, Qingyang Wu, Yuheng Li, and Yong Jae Lee
来源：https://github.com/haotian-liu/LLaVA
许可证：Apache-2.0 license
描述：代码库基于LLaVA代码。

OpenClip

作者：Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, Hannaneh Hajishirzi, Ali Farhadi, and Ludwig Schmidt
来源：https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K
许可证：MIT
描述：ViT使用OpenClip的权重初始化。

注意事项