C

Colnomic Embed Multimodal 3b

由 nomic-ai 开发
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
下载量 4,636
发布时间 : 3/27/2025
模型介绍
内容详情
替代品

模型简介

该模型在视觉文档检索任务中表现卓越,能够直接编码交错排列的文本和图像,无需复杂预处理,适用于多种文档检索场景。

模型特点

高性能视觉文档检索
在Vidore-v2上达到61.2 NDCG@5,仅次于ColNomic Embed多模态7B。
统一文本-图像编码
直接编码交错排列的文本和图像,无需复杂预处理。
多语言支持
支持英语、意大利语、法语、德语和西班牙语等多种语言。
多向量输出
提供多向量输出选项,提升性能表现。

模型能力

文本编码
图像编码
多模态检索
多语言处理

使用案例

研究论文检索
捕获公式和图表
检索包含特定公式或图表的研究论文。
能够准确识别和检索包含复杂科学内容的文档。
技术文档管理
代码块和流程图检索
在技术文档中查找特定代码块或流程图。
有效识别技术文档中的代码和视觉元素。
财务报告分析
图表和数据检索
能够准确识别财务报告中的关键数据可视化内容。