L

Llama 3.2 90B Vision

由 meta-llama 开发
Llama 3.2-Vision是Meta开发的多模态大语言模型系列,支持图像+文本输入和文本输出,专为视觉识别、图像推理、图像描述和图像问答任务优化。
下载量 3,235
发布时间 : 9/19/2024
模型介绍
内容详情
替代品

模型简介

基于纯文本模型Llama 3.1构建的多模态模型,通过独立训练的视觉适配器实现图像理解能力,在视觉问答、文档解析等任务中表现优异。

模型特点

超长上下文支持
128k tokens的上下文窗口长度,适合处理高分辨率图像和复杂图文交互
高效视觉适配器
通过交叉注意力层实现的独立视觉编码器,在不影响文本能力的前提下增强图像理解
多阶段优化
经过预训练、监督微调(SFT)和人类反馈强化学习(RLHF)三阶段优化
绿色计算
训练过程使用可再生能源,实现净零碳排放

模型能力

图像内容理解
视觉问答推理
多语言文本生成
文档图文解析
图表数据解读
场景描述生成

使用案例

视觉理解
医疗影像分析
解读X光片等医学图像并生成诊断建议
在专业测试集上达到接近专家的识别准确率
零售商品识别
识别商品图像并生成营销描述
可自动生成符合SEO优化的产品文案
教育辅助
科学图表解释
解析教科书中的复杂图表并生成通俗解释
在ChartQA测试集上达到85.5%准确率