N

Nomic Embed Multimodal 3b

由 nomic-ai 开发
Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型,专注于视觉文档检索任务,支持统一文本-图像编码,在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。
下载量 3,431
发布时间 : 3/27/2025

模型简介

这是一款30亿参数的多模态嵌入模型,擅长处理视觉文档检索任务,能够直接编码交错排列的文本和图像,无需复杂预处理。

模型特点

卓越性能
在Vidore-v2测试中达到58.8 NDCG@5,超越所有同类规模的密集多模态嵌入模型
统一文本-图像编码
无需复杂预处理即可直接编码交错排列的文本和图像
先进训练方法
采用同源采样和正样本感知难负挖掘技术进行训练
多语言支持
支持英语、意大利语、法语、德语和西班牙语

模型能力

视觉文档检索
多模态嵌入
文本-图像联合编码
多语言文档处理

使用案例

研究领域
学术论文检索
捕捉论文中的公式、图表和数据表格
提高对学术内容的检索准确率
企业应用
技术文档管理
编码技术文档中的代码块、流程图和屏幕截图
提升技术文档的检索效率
财务报告分析
嵌入财务报告中的走势图、统计图和数值数据
改善财务数据的检索效果
电子商务
产品目录检索
处理产品图、规格参数和价格表
优化产品搜索体验
AIbase
智启未来,您的人工智能解决方案智库
简体中文