license: apache-2.0
library_name: pytorch
tags:
- llava
license_name: yi-license
license_link: LICENSE
pipeline_tag: image-text-to-text
Yi 视觉语言模型
更优的双语多模态模型
🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel
👩🚀 在 GitHub 上提问或讨论想法!
👋 加入我们的 💬 微信群(中文) !
📚 在 Yi 学习中心 成长!
📕 目录
什么是 Yi-VL?
概述
-
Yi 视觉语言(Yi-VL) 模型是 Yi 大语言模型(LLM) 系列的开源多模态版本,能够理解、识别图像内容,并进行关于图像的多轮对话。
-
Yi-VL 表现出卓越的性能,在最新的基准测试中排名第一,包括英语的 MMMU 和中文的 CMMMU(基于截至 2024 年 1 月的数据)。
-
Yi-VL-34B 是全球首个开源的 34B 视觉语言模型。
模型
Yi-VL 已发布以下版本。
特性
Yi-VL 提供以下特性:
-
多轮图文对话:Yi-VL 可以同时接受文本和图像作为输入,并生成文本输出。目前支持单张图像的多轮视觉问答。
-
双语文本支持:Yi-VL 支持中英文对话,包括图像中的文字识别。
-
强大的图像理解能力:Yi-VL 擅长分析视觉内容,是从图像中提取、组织和总结信息的有效工具。
-
精细的图像分辨率:Yi-VL 支持更高分辨率 448×448 的图像理解。
架构
Yi-VL 采用 LLaVA 架构,主要由三个部分组成:

训练
训练过程
Yi-VL 的训练旨在将视觉信息良好地对齐到 Yi LLM 的语义空间,经过全面的三阶段训练过程:
以下是每个阶段的参数配置。
阶段 |
全局批量大小 |
学习率 |
梯度裁剪 |
训练轮数 |
阶段 1, 2 |
4096 |
1e-4 |
0.5 |
1 |
阶段 3 |
256 |
2e-5 |
1.0 |
2 |
训练资源消耗
局限性
这是 Yi-VL 的初始版本,存在一些已知的局限性。建议在采用任何模型之前仔细评估潜在风险。
-
功能限制
-
幻觉问题
-
分辨率问题
- Yi-VL 在 448×448 分辨率的图像上训练。推理时,任何分辨率的输入都会被调整为 448×448。低分辨率图像可能导致信息丢失,更精细的图像(超过 448)不会带来额外知识。
-
Yi LLM 的其他局限性。
为什么选择 Yi-VL?
技术报告
有关 Yi 系列模型的详细能力,请参阅 Yi: Open Foundation Models by 01.AI。
引用
@misc{ai2024yi,
title={Yi: Open Foundation Models by 01.AI},
author={01. AI and : and Alex Young and Bei Chen and Chao Li and Chengen Huang and Ge Zhang and Guanwei Zhang and Heng Li and Jiangcheng Zhu and Jianqun Chen and Jing Chang and Kaidong Yu and Peng Liu and Qiang Liu and Shawn Yue and Senbin Yang and Shiming Yang and Tao Yu and Wen Xie and Wenhao Huang and Xiaohui Hu and Xiaoyi Ren and Xinyao Niu and Pengcheng Nie and Yuchi Xu and Yudong Liu and Yue Wang and Yuxuan Cai and Zhenyu Gu and Zhiyuan Liu and Zonghong Dai},
year={2024},
eprint={2403.04652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
基准测试
Yi-VL 在 MMMU 和 CMMMU 两个先进基准测试中优于所有现有的开源模型,这两个基准包含大量多学科多模态问题(基于截至 2024 年 1 月的数据)。


展示案例
以下是详细描述和视觉问答的一些代表性示例,展示了 Yi-VL 的能力。


如何使用 Yi-VL?
快速开始
详情请参考 Yi GitHub 仓库。
硬件要求
模型推理的推荐 GPU 示例:
-
Yi-VL-6B: RTX 3090, RTX 4090, A10, A30
-
Yi-VL-34B: 4 × RTX 4090, A800 (80 GB)
其他
致谢与归属
本项目使用了开源软件/组件。我们感谢这些开发者对开源社区的