Yi VL 34B

由 01-ai 开发

Yi-VL-34B 是 Yi 系列的开源多模态模型，能够理解图像内容并进行多轮对话，在 MMMU 和 CMMMU 基准测试中表现优异。

图像生成文本

PyTorch

开源协议:Apache-2.0 #双语多模态 #高分辨率图像理解 #视觉问答

下载量 150

发布时间 : 12/25/2023

模型介绍

内容详情

替代品

模型简介

Yi-VL 是 Yi 大语言模型系列的多模态版本，支持中英文双语，能够理解和分析图像内容，进行视觉问答和多轮对话。

模型特点

双语多模态支持

支持中英文双语对话，包括图像中的文字识别。

高分辨率图像理解

支持 448×448 分辨率的图像理解，能够处理更精细的视觉细节。

多轮图文对话

可以同时接受文本和图像作为输入，进行多轮视觉问答。

强大的图像分析能力

擅长从图像中提取、组织和总结信息。

模型能力

图像内容理解

视觉问答

多轮对话

中英文双语处理

图像文字识别

使用案例

教育

多学科视觉问答

帮助学生理解复杂图表和图像内容

在 MMMU 和 CMMMU 多学科基准测试中表现优异

内容分析

图像内容总结

从图像中提取关键信息并生成描述

能够准确识别和描述图像中的对象和场景

license: apache-2.0 library_name: pytorch tags:

llava license_name: yi-license license_link: LICENSE pipeline_tag: image-text-to-text

Yi 视觉语言模型

更优的双语多模态模型

🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel

👩‍🚀 在 GitHub 上提问或讨论想法！

👋 加入我们的 💬 微信群（中文）！

📚 在 Yi 学习中心成长！

📕 目录

什么是 Yi-VL？
- 概述
- 模型
- 特性
- 架构
- 训练
- 局限性
为什么选择 Yi-VL？
如何使用 Yi-VL？
- 快速开始
- 硬件要求
其他
- 致谢与归属
  - 使用的开源项目列表
- 许可证

什么是 Yi-VL？

概述

Yi 视觉语言（Yi-VL） 模型是 Yi 大语言模型（LLM） 系列的开源多模态版本，能够理解、识别图像内容，并进行关于图像的多轮对话。
Yi-VL 表现出卓越的性能，在最新的基准测试中排名第一，包括英语的 MMMU 和中文的 CMMMU（基于截至 2024 年 1 月的数据）。
Yi-VL-34B 是全球首个开源的 34B 视觉语言模型。

模型

Yi-VL 已发布以下版本。

模型	下载
Yi-VL-34B	• 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel
Yi-VL-6B	• 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel

特性

Yi-VL 提供以下特性：

多轮图文对话：Yi-VL 可以同时接受文本和图像作为输入，并生成文本输出。目前支持单张图像的多轮视觉问答。
双语文本支持：Yi-VL 支持中英文对话，包括图像中的文字识别。
强大的图像理解能力：Yi-VL 擅长分析视觉内容，是从图像中提取、组织和总结信息的有效工具。
精细的图像分辨率：Yi-VL 支持更高分辨率 448×448 的图像理解。

架构

Yi-VL 采用 LLaVA 架构，主要由三个部分组成：

视觉变换器（ViT）：使用 CLIP ViT-H/14 模型初始化，用于图像编码。
投影模块：设计用于将图像特征与文本特征空间对齐，由带有层归一化的两层多层感知机（MLP）组成。
大语言模型（LLM）：使用 Yi-34B-Chat 或 Yi-6B-Chat 初始化，在中英文理解和生成方面表现出卓越能力。

image/png

训练

训练过程

Yi-VL 的训练旨在将视觉信息良好地对齐到 Yi LLM 的语义空间，经过全面的三阶段训练过程：

阶段 1：使用 224×224 的图像分辨率训练 ViT 和投影模块的参数。LLM 权重被冻结。训练利用了来自 LAION-400M 的 1 亿图像-文本对的图像描述数据集。主要目标是增强 ViT 在指定架构中的知识获取能力，并实现 ViT 与 LLM 之间更好的对齐。
阶段 2：将 ViT 的图像分辨率提升至 448×448，并训练 ViT 和投影模块的参数。旨在进一步提升模型辨别复杂视觉细节的能力。此阶段使用的数据集包括约 2500 万图像-文本对，如 LAION-400M、CLLaVA、LLaVAR、Flickr、VQAv2、RefCOCO、Visual7w 等。
阶段 3：训练整个模型（即 ViT、投影模块和 LLM）的参数。主要目标是增强模型在多模态聊天交互中的熟练度，从而使其能够无缝整合和解释视觉与语言输入。为此，训练数据集涵盖了多样化的来源，总计约 100 万图像-文本对，包括 GQA、VizWiz VQA、TextCaps、OCR-VQA、Visual Genome、LAION GPT4V 等。为确保数据平衡，我们对任何单一来源的数据贡献设置了上限，限制其不超过 5 万对。

以下是每个阶段的参数配置。

阶段	全局批量大小	学习率	梯度裁剪	训练轮数
阶段 1, 2	4096	1e-4	0.5	1
阶段 3	256	2e-5	1.0	2

训练资源消耗

训练消耗了 128 块 NVIDIA A800（80G）GPU。
Yi-VL-34B 的总训练时间约为 10 天，Yi-VL-6B 约为 3 天。

局限性

这是 Yi-VL 的初始版本，存在一些已知的局限性。建议在采用任何模型之前仔细评估潜在风险。

功能限制
- 支持视觉问答。其他功能如文本到 3D 和图像到视频尚未支持。
- 可以接受单张图像而非多张图像作为输入。
幻觉问题
- 存在一定可能性生成图像中不存在的内容。
- 在包含多个对象的场景中，某些对象可能被错误识别或描述不够详细。
分辨率问题
- Yi-VL 在 448×448 分辨率的图像上训练。推理时，任何分辨率的输入都会被调整为 448×448。低分辨率图像可能导致信息丢失，更精细的图像（超过 448）不会带来额外知识。
Yi LLM 的其他局限性。

为什么选择 Yi-VL？

技术报告

有关 Yi 系列模型的详细能力，请参阅 Yi: Open Foundation Models by 01.AI。

引用

@misc{ai2024yi,
    title={Yi: Open Foundation Models by 01.AI},
    author={01. AI and : and Alex Young and Bei Chen and Chao Li and Chengen Huang and Ge Zhang and Guanwei Zhang and Heng Li and Jiangcheng Zhu and Jianqun Chen and Jing Chang and Kaidong Yu and Peng Liu and Qiang Liu and Shawn Yue and Senbin Yang and Shiming Yang and Tao Yu and Wen Xie and Wenhao Huang and Xiaohui Hu and Xiaoyi Ren and Xinyao Niu and Pengcheng Nie and Yuchi Xu and Yudong Liu and Yue Wang and Yuxuan Cai and Zhenyu Gu and Zhiyuan Liu and Zonghong Dai},
    year={2024},
    eprint={2403.04652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}