L

Llama 3.2 90B Vision Instruct

由 meta-llama 开发
Llama 3.2-Vision是Meta开发的多模态大语言模型,支持图像和文本输入,文本输出,在视觉识别、图像推理、图像描述和图像问答任务上表现优异。
下载量 15.44k
发布时间 : 9/19/2024
模型介绍
内容详情
替代品

模型简介

基于纯文本模型Llama 3.1构建的多模态模型,通过视觉适配器集成图像处理能力,适用于视觉问答、图像描述生成等任务。

模型特点

多模态能力
支持图像和文本输入,能够理解和分析图像内容并生成相关文本输出。
高性能视觉理解
在视觉问答、文档解析和图表推理等任务上超越多数开源和闭源多模态模型。
长上下文支持
支持128k的上下文长度,适合处理复杂的多模态任务。
安全对齐
通过监督微调(SFT)和人类反馈强化学习(RLHF)实现与人类价值观的对齐。

模型能力

视觉问答
图像推理
图像描述生成
图文检索匹配
视觉定位
文档视觉问答
图表推理

使用案例

视觉问答
图像内容问答
回答关于图像内容的自然语言问题
在VQAv2数据集上准确率达73.6%
文档处理
文档视觉问答
理解和回答基于文档图像的问题
在DocVQA数据集上ANLS得分70.7
图像生成
图像描述生成
为输入图像生成自然语言描述
可生成高质量的图像描述和创意文本