license: apache-2.0
library_name: pytorch
tags:
- llava
license_name: yi-license
license_link: LICENSE
pipeline_tag: image-text-to-text
Yi视觉语言模型
更卓越的双语多模态模型
🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel
👩🚀 在 GitHub 上提问或讨论想法!
👋 加入我们的💬 微信群(中文) !
📚 在 Yi学习中心 成长!
📕 目录
什么是Yi-VL?
概述
-
**Yi视觉语言(Yi-VL)模型是Yi大语言模型(LLM)**系列的开源多模态版本,能够理解、识别图像内容并进行多轮对话。
-
Yi-VL表现出卓越的性能,在最新的基准测试中排名第一,包括英语的MMMU和中文的CMMMU(基于截至2024年1月的数据)。
-
Yi-VL-34B是全球首个开源的34B视觉语言模型。
模型
Yi-VL已发布以下版本。
特性
Yi-VL提供以下功能:
-
多轮图文对话:Yi-VL可以同时接受文本和图像输入并生成文本输出。目前支持单张图像的多轮视觉问答。
-
双语文本支持:Yi-VL支持中英文对话,包括图像中的文本识别。
-
强大的图像理解能力:Yi-VL擅长分析视觉内容,是从图像中提取、组织和总结信息的高效工具。
-
精细的图像分辨率:Yi-VL支持448×448的高分辨率图像理解。
架构
Yi-VL采用LLaVA架构,主要由三个部分组成:

训练
训练流程
Yi-VL通过全面的三阶段训练过程,将视觉信息与Yi LLM的语义空间对齐:
以下是各阶段的参数配置。
阶段 |
全局批次大小 |
学习率 |
梯度裁剪 |
训练轮数 |
阶段1、2 |
4096 |
1e-4 |
0.5 |
1 |
阶段3 |
256 |
2e-5 |
1.0 |
2 |
训练资源消耗
局限性
这是Yi-VL的初始版本,存在一些已知限制。建议在采用任何模型前仔细评估潜在风险。
-
功能限制
-
幻觉问题
-
分辨率问题
- Yi-VL在448×448分辨率的图像上训练。推理时,任何分辨率的输入都会被调整为448×448。低分辨率图像可能导致信息丢失,更高分辨率的图像(超过448)不会带来额外知识。
-
Yi LLM的其他限制。
为什么选择Yi-VL?
技术报告
关于Yi系列模型的详细能力,请参阅Yi: Open Foundation Models by 01.AI。
引用
@misc{ai2024yi,
title={Yi: Open Foundation Models by 01.AI},
author={01. AI and : and Alex Young and Bei Chen and Chao Li and Chengen Huang and Ge Zhang and Guanwei Zhang and Heng Li and Jiangcheng Zhu and Jianqun Chen and Jing Chang and Kaidong Yu and Peng Liu and Qiang Liu and Shawn Yue and Senbin Yang and Shiming Yang and Tao Yu and Wen Xie and Wenhao Huang and Xiaohui Hu and Xiaoyi Ren and Xinyao Niu and Pengcheng Nie and Yuchi Xu and Yudong Liu and Yue Wang and Yuxuan Cai and Zhenyu Gu and Zhiyuan Liu and Zonghong Dai},
year={2024},
eprint={2403.04652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
基准测试
Yi-VL在MMMU和CMMMU两个先进基准测试中表现优于所有现有开源模型,这两个基准包含大量多学科多模态问题(基于截至2024年1月的数据)。


展示案例
以下是详细描述和视觉问答的代表性示例,展示了Yi-VL的能力。


如何使用Yi-VL?
快速开始
详情请参考Yi GitHub仓库。
硬件要求
模型推理推荐的GPU示例:
其他
致谢与归属
本项目使用了开源软件/组件。我们感谢这些开发者对开源社区的贡献。
使用的开源项目列表
- LLaVA
- 作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yuheng Li, and Yong Jae Lee
- 来源:https://github.com/haotian-liu/LLaVA
- 许可证:Apache-2.0 license
- 描述:代码库基于LLaVA代码。
- OpenClip
- 作者:Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, Hannaneh Hajishirzi, Ali Farhadi, and Ludwig Schmidt
- 来源:https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K
- 许可证:MIT
- 描述:ViT使用OpenClip的权重初始化。
注意事项
我们感谢开源社区对技术世界的宝贵贡献。
许可证
源代码的许可证请参考致谢与归属以及各个组件。
Yi系列模型完全开放学术研究并免费商用,申请后自动获得许可。
所有使用必须遵守Apache 2.0许可证。
免费商用只需发送邮件即可获得官方商用许可。