L

Llama 3.2 11b Vision R1 Distill

由 bababababooey 开发
Llama 3.2-Vision是由Meta开发的多模态大语言模型,支持图像和文本输入,针对视觉识别、图像推理和描述任务进行了优化。
下载量 29
发布时间 : 2/7/2025
模型介绍
内容详情
替代品

模型简介

基于Llama 3.1纯文本模型构建的多模态模型,通过图像适配器支持视觉任务,在多种视觉基准测试中表现优异。

模型特点

多模态理解
同时处理图像和文本输入,实现跨模态理解与推理
长上下文支持
128k tokens的上下文窗口,适合处理复杂视觉场景
高效推理
采用分组查询注意力(GQA)技术提升推理效率
安全对齐
通过RLHF和SFT与人类偏好对齐,内置安全缓解措施

模型能力

视觉问答
图像描述生成
文档理解
图表解析
多语言文本生成
视觉定位
图像-文本检索

使用案例

教育
教材内容理解
解析教科书中的图表和插图,回答学生问题
在MMMU大学水平问题测试中达到60.3%准确率
商业分析
商业图表解读
自动分析财报图表和数据可视化
ChartQA测试集上达到85.5%准确率
文档处理
智能发票处理
从发票图像中提取关键信息并计算日期差
DocVQA测试ANLS得分90.1