开源E5-V多模态模型 - 免费处理文本图像并生成统一嵌入表示

首页

E5 V

由 royokong 开发

E5-V是基于多模态大语言模型的通用嵌入方法，能够处理文本和图像输入并生成统一的嵌入表示。

多模态对齐

Transformers

#多模态嵌入 #跨模态检索 #文本图像对齐

下载量 5,619

发布时间 : 7/14/2024

模型简介

E5-V是一个多模态嵌入框架，通过适配多模态大语言模型（MLLMs）来实现跨模态的嵌入表示，有效弥合不同输入类型之间的模态鸿沟。

模型特点

跨模态统一表示

能够将文本和图像输入映射到统一的嵌入空间，实现跨模态检索和比较

单模态训练优化

仅通过文本对训练即可获得优于多模态训练的性能表现

零样本迁移能力

未经微调也能在多模态嵌入任务中展现出色性能

模型能力

文本嵌入生成

图像嵌入生成

跨模态检索

语义相似度计算

使用案例

信息检索

跨模态搜索

使用文本查询检索相关图像，或使用图像查询检索相关文本

高精度的跨模态匹配能力

内容推荐

多模态内容推荐

基于用户历史交互（文本或图像）推荐相关内容

提升推荐系统的多样性和准确性

🚀 [E5-V：基于多模态大语言模型的通用嵌入]

E5-V是一个用于实现多模态嵌入的框架，它基于MLLMs进行适配，有效弥合了不同类型输入之间的模态差距，即使在未微调的情况下，也能在多模态嵌入任务中展现出强大性能。同时，其单模态训练方法仅在文本对上进行训练，表现优于多模态训练。

🚀 快速开始

E5-V基于lmms-lab/llama3-llava-next-8b进行微调。我们提出了名为E5-V的框架，用于适配MLLMs以实现多模态嵌入。E5-V有效地弥合了不同类型输入之间的模态差距，即使在未进行微调的情况下，也能在多模态嵌入中展现出强大的性能。我们还为E5-V提出了一种单模态训练方法，该模型仅在文本对上进行训练，其性能优于多模态训练。

更多详细信息可查看：https://github.com/kongds/E5-V

💻 使用示例

基础用法

import torch
import torch.nn.functional as F
import requests
from PIL import Image
from transformers import AutoTokenizer
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration

llama3_template = '<|start_header_id|>user<|end_header_id|>\n\n{}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n \n'

processor = LlavaNextProcessor.from_pretrained('royokong/e5-v')
model = LlavaNextForConditionalGeneration.from_pretrained('royokong/e5-v', torch_dtype=torch.float16).cuda()

img_prompt = llama3_template.format('<image>\nSummary above image in one word: ')
text_prompt = llama3_template.format('<sent>\nSummary above sentence in one word: ')

urls = ['https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/American_Eskimo_Dog.jpg/360px-American_Eskimo_Dog.jpg',
        'https://upload.wikimedia.org/wikipedia/commons/thumb/b/b6/Felis_catus-cat_on_snow.jpg/179px-Felis_catus-cat_on_snow.jpg']
images = [Image.open(requests.get(url, stream=True).raw) for url in urls]

texts = ['A dog sitting in the grass.',
         'A cat standing in the snow.']

text_inputs = processor([text_prompt.replace('<sent>', text) for text in texts], return_tensors="pt", padding=True).to('cuda')
img_inputs = processor([img_prompt]*len(images), images, return_tensors="pt", padding=True).to('cuda')

with torch.no_grad():
    text_embs = model(**text_inputs, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]
    img_embs = model(**img_inputs, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]

    text_embs = F.normalize(text_embs, dim=-1)
    img_embs = F.normalize(img_embs, dim=-1)

print(text_embs @ img_embs.t())