ReflectiVA开源多模态大模型 - 增强视觉问答能力，免费部署用起来！

首页

Reflectiva

由 aimagelab 开发

ReflectiVA是一种多模态大语言模型，通过整合外部知识源和反思令牌机制增强视觉问答能力。

文本生成图像

Transformers

开源协议:Apache-2.0 #多模态知识增强 #动态知识检索 #视觉问答优化

下载量 46

发布时间 : 11/25/2024

模型简介

ReflectiVA是一种创新的多模态大语言模型，能够处理文本和图像输入，通过反思令牌动态判断是否需要外部知识，并在需要时从外部数据库检索相关信息，从而提升基于知识的视觉问答任务性能。

模型特点

反思令牌机制

通过特殊设计的反思令牌动态判断是否需要外部知识，实现智能知识检索

两阶段训练

采用双模型训练方案，既保持基础性能又增强知识获取能力

知识增强

能够有效整合外部知识源，提升复杂视觉问答任务的准确性

模型能力

多模态理解

视觉问答

外部知识检索

图像-文本联合处理

使用案例

教育

复杂视觉问答

回答需要外部知识的图像相关问题

在基于知识的视觉问答任务中表现优于现有方法

研究

多模态研究

探索视觉与语言联合理解的机制

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Reflectiva

模型简介

模型特点

模型能力

使用案例

🚀 反射式LLaVA（ReflectiVA）模型卡片

📚 详细文档

引用信息

论文页面

📄 许可证