C

Chatrex 7B

由 IDEA-Research 开发
ChatRex是一款擅长感知的多模态大语言模型,能在回答问题的同时将答案关联到具体对象。
下载量 825
发布时间 : 11/25/2024
模型介绍
内容详情
替代品

模型简介

ChatRex是一款多模态大语言模型(MLLM),旨在无缝整合细粒度物体感知与强大的语言理解能力。通过采用解耦架构结合基于检索的目标检测方法,并利用高分辨率视觉输入,ChatRex解决了感知任务中的关键挑战。

模型特点

细粒度物体感知
能够将答案关联到图像中的具体对象,实现细粒度的物体感知。
多模态整合
无缝整合视觉和语言理解能力,支持多种视觉语言任务。
高分辨率视觉输入
利用高分辨率视觉输入,提升感知任务的准确性。
通用建议网络(UPN)
采用双粒度提示调优策略的DETR架构,结合细粒度和粗粒度检测能力。

模型能力

目标检测
基于实体的对话
基于实体的图像描述
区域理解
多模态问答

使用案例

视觉问答
目标检测与实体关联
检测图像中的特定对象并将答案关联到具体对象。
能够准确检测并关联图像中的对象。
图像描述
区域描述生成
生成图像中特定区域的描述。
能够生成准确且详细的区域描述。
基于实体的图像描述
生成包含实体索引的图像描述。
生成的描述中包含所有提及对象的索引。
对话系统
基于实体的对话
在对话中将答案关联到图像中的具体对象。
能够实现基于实体的自然对话。