Finedefics开源多模态大语言模型 - 免费部署助力细粒度视觉识别

Finedefics

由 StevenHH2000 开发

Finedefics 是一个开源的多模态大语言模型（MLLM），通过融入对象的信息化属性描述，增强了细粒度视觉识别（FGVR）能力。

下载量 82

发布时间 : 2/12/2025

模型简介

Finedefics 是一个基于 Transformer 架构的自回归语言模型，主要用于细粒度多模态大语言模型的研究，适用于计算机视觉、自然语言处理等领域。

细粒度视觉识别增强

通过在训练阶段融入对象的信息化属性描述，显著提升了模型的细粒度视觉识别能力。

多模态能力

结合视觉和文本信息，支持图像到文本的转换和理解。

开源模型

基于开源模型 Idefics2-8b 构建，遵循 Apache 2.0 许可证，便于研究和应用。

细粒度视觉识别

多模态理解

图像到文本转换

计算机视觉研究

细粒度物体分类

用于识别和分类细粒度物体，如不同品种的狗、鸟类等。

自然语言处理

多模态问答

结合图像和文本信息进行问答任务。

属性	详情
模型类型	Finedefics是一个开源的多模态大语言模型（MLLM），它是自回归语言模型，基于Transformer架构。基础MLLM为HuggingFaceM4/idefics2 - 8b。
更多信息的论文或资源	OpenReview: https://openreview.net/forum?id=p3NKpom1VL Arxiv: https://arxiv.org/abs/2501.15140