L

Llama 3.2 11B Vision Instruct

由 meta-llama 开发
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
下载量 784.19k
发布时间 : 9/18/2024
模型介绍
内容详情
替代品

模型简介

Llama 3.2 是一个基于 Transformer 架构的多模态模型,能够处理图像和文本输入,生成详细的文本输出。适用于艺术分析、图表理解和文档问答等多种场景。

模型特点

多模态理解
能够同时处理图像和文本输入,生成连贯且详细的文本输出。
多语言支持
支持包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语在内的多种语言。
艺术与图表分析
能够分析艺术作品的时代特征和风格,以及从图表中提取关键信息。
文档问答
能够从发票等文档中提取关键信息并回答相关问题。

模型能力

图像理解
文本生成
跨模态推理
多语言处理
艺术风格分析
图表数据提取
文档信息提取

使用案例

艺术分析
洛可可艺术分析
分析洛可可艺术作品的风格特征和时代背景。
能够详细描述洛可可时代的艺术特点,包括柔和的色彩、曲线线条和繁复的装饰细节。
图表理解
干旱地区分析
从图表中提取干旱发生的地区信息。
能够准确识别并列出2016年遭受严重干旱的地区,如东部和南部非洲。
文档问答
发票日期计算
从发票中提取日期信息并计算时间差。
能够准确计算发票日期与到期日之间的天数差,如15天。