多模态嵌入

# 多模态嵌入

VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型，通过训练视觉语言模型，为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。

多模态融合

Transformers 英语

Unime Phi3.5 V 4.2B

UniME 是一个基于多模态大模型的通用嵌入学习模型，专注于打破模态壁垒，实现跨模态检索和嵌入学习。

多模态对齐

Transformers 英语

基于SigLIP 2微调的视觉语言模型，最大文本长度从64提升至256标记

文本生成图像

Transformers 英语

基于Qwen2.5-Omni-7B构建的多模态嵌入模型，支持跨语言文本、图像、音频和视频的统一嵌入表示

多模态融合

Nomic Embed Multimodal 3b

Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型，专注于视觉文档检索任务，支持统一文本-图像编码，在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。

文本生成图像支持多种语言

Colnomic Embed Multimodal 3b

ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型，专为视觉文档检索任务设计，支持多语言文本和图像的统一编码。

多模态融合支持多种语言

首个专为金融时间序列预测设计的检索器，基于检索增强生成（RAG）框架

大型语言模型

Transformers 英语

Nitibench Ccl Human Finetuned Bge M3

基于BAAI/bge-m3模型在泰语法律查询数据上微调的版本，支持稠密检索、词法匹配和多向量交互

文本嵌入其他

LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型，具备文本、图像、多图像和视频的嵌入表示能力。

多模态融合

Transformers 英语

LLaVE-2B是基于Aquila-VL-2B模型的20亿参数多模态嵌入模型，具有4K tokens的上下文窗口，支持文本、图像、多图像和视频的嵌入表示。

文本生成图像

Transformers 英语

LLaVE是基于LLaVA-OneVision-0.5B模型的多模态嵌入模型，参数规模为0.5B，能够对文本、图像、多图像和视频进行嵌入。

多模态融合

Transformers 英语

Vit Base Patch16 Siglip 512.webli

基于SigLIP架构的视觉Transformer模型，仅包含图像编码器部分，采用原始注意力池化机制

Taxabind Vit B 16

TaxaBind 是一个包含六种模态的多模态嵌入空间模型，专注于生态应用，支持利用分类学文本类别对物种图像进行零样本分类。

多模态融合

Dse Qwen2 2b Mrl V1

DSE-QWen2-2b-MRL-V1 是一个双编码器模型，专为将文档截图编码为密集向量以实现文档检索而设计。

多模态融合支持多种语言

bge-m3嵌入模型的GGUF量化版本，适用于高效的文本嵌入任务

E5-V是基于多模态大语言模型的通用嵌入方法，能够处理文本和图像输入并生成统一的嵌入表示。

多模态对齐

Nomic Embed Vision V1.5

高性能视觉嵌入模型，与nomic-embed-text-v1.5共享相同的嵌入空间，支持多模态应用

文本生成图像

Transformers 英语

Nomic Embed Vision V1

高性能视觉嵌入模型，与nomic-embed-text-v1共享相同的嵌入空间，支持多模态应用

文本生成图像

Transformers 英语

BGE-M3是一个支持稠密检索、词汇匹配和多向量交互的嵌入模型，已转换为ONNX格式以便兼容ONNX Runtime等框架。

Siglip Base Patch16 224

SigLIP是一种基于视觉-语言预训练的模型，适用于零样本图像分类任务。

文本生成图像

Clip Vit Base Patch16

OpenAI开源的CLIP模型，基于Vision Transformer架构，支持图像与文本的跨模态理解

文本生成图像

Chinese Clip Vit Base Patch16

中文CLIP的基础版本，采用ViT-B/16作为图像编码器，RoBERTa-wwm-base作为文本编码器，在约2亿中文图文对的大规模数据集上训练。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24