Y

Yi VL 6B

由 01-ai 开发
Yi-VL是01.AI开发的开源多模态视觉语言模型,支持中英文图文对话,在MMMU和CMMMU基准测试中表现优异。
下载量 336
发布时间 : 12/25/2023
模型介绍
内容详情
替代品

模型简介

基于Yi大语言模型系列开发的多模态版本,能够理解图像内容并进行多轮对话,支持448×448高分辨率图像理解。

模型特点

双语多模态理解
同时支持中英文的图文对话能力,包括图像中的文本识别
高分辨率图像处理
支持448×448的高分辨率图像理解能力
三阶段训练流程
通过渐进式训练策略优化视觉与语言特征的融合
开源可商用
完全开放学术研究并免费商用,申请后自动获得许可

模型能力

视觉问答
图像内容理解
多轮图文对话
中英文双语处理
图像文本识别

使用案例

教育
多学科视觉问答
解答涉及多个学科的图像相关问题
在MMMU和CMMMU基准测试中排名第一
内容分析
图像信息提取
从图像中提取、组织和总结信息
能识别复杂视觉细节