roberta-large-InBedder开源文本嵌入器 - 精准捕捉指定文本特征，按指令作答

首页

Roberta Large InBedder

由 BrandonZYW 开发

InBedder是一款专为遵循指令而设计的文本嵌入器，能够通过回答问题的方式捕捉用户指令指定的文本特征。

文本嵌入

Transformers

英语开源协议:MIT #指令感知嵌入 #动态文本表征 #问答式编码

下载量 17

发布时间 : 2/15/2024

模型简介

InBedder通过将指令视为关于输入文本的问题，并通过编码预期答案来获取表示，能够识别不同评估任务中的指令。

模型特点

指令跟随能力

能够理解并执行用户提供的指令，根据指令提取特定的文本特征

问答式嵌入

将指令转化为问题，通过编码预期答案的方式获取文本表示

多任务适应性

能够识别并适应不同评估任务中的指令要求

模型能力

指令感知的文本嵌入

语义相似度计算

情感分析

实体识别

使用案例

语义分析

动物识别

识别文本中提到的动物

能准确区分不同动物相关的文本

情感分析

识别文本中表达的情感

能区分不同情感倾向的文本

🚀 [ACL2024] 答案即所需：通过回答问题实现遵循指令的文本嵌入

InBedder🛌 是一个专为遵循指令而设计的文本嵌入器。遵循指令的文本嵌入器能够捕捉用户指令所指定的文本特征。InBedder 提供了一个新颖的视角，即将指令视为关于输入文本的问题，并对预期答案进行编码，从而相应地获得文本表示。我们的研究表明，InBedder 在不同的评估任务中都能感知指令。

image/png

🚀 快速开始

InBedder 是一个能够遵循指令的文本嵌入器，它可以根据用户指令捕捉文本特征。下面是一个使用示例，展示了如何使用 InBedder 进行文本嵌入并计算余弦相似度。

💻 使用示例

基础用法

import torch
from torch import nn
from torch.nn.functional import gelu, cosine_similarity
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

import numpy as np

class InBedder():
    
    def __init__(self, path='KomeijiForce/inbedder-roberta-large', device='cuda:0'):
        
        model = AutoModelForMaskedLM.from_pretrained(path)
    
        self.tokenizer = AutoTokenizer.from_pretrained(path)
        self.model = model.roberta
        self.dense = model.lm_head.dense
        self.layer_norm = model.lm_head.layer_norm
        
        self.device = torch.device(device)
        self.model = self.model.to(self.device)
        self.dense = self.dense.to(self.device)
        self.layer_norm = self.layer_norm.to(self.device)
        
        self.vocab = self.tokenizer.get_vocab()
        self.vocab = {self.vocab[key]:key for key in self.vocab}
        
    def encode(self, input_texts, instruction, n_mask):
        
        if type(instruction) == str:
            prompts = [instruction + self.tokenizer.mask_token*n_mask for input_text in input_texts]
        elif type(instruction) == list:
            prompts = [inst + self.tokenizer.mask_token*n_mask for inst in instruction]
    
        inputs = self.tokenizer(input_texts, prompts, padding=True, truncation=True, return_tensors='pt').to(self.device)

        mask = inputs.input_ids.eq(self.tokenizer.mask_token_id)
        
        outputs = self.model(**inputs)

        logits = outputs.last_hidden_state[mask]
        
        logits = self.layer_norm(gelu(self.dense(logits)))
        
        logits = logits.reshape(len(input_texts), n_mask, -1)
        
        logits = logits.mean(1)
            
        logits = (logits - logits.mean(1, keepdim=True)) / logits.std(1, keepdim=True)
        
        return logits

inbedder = InBedder(path='KomeijiForce/inbedder-roberta-large', device='cpu')

texts = ["I love cat!", "I love dog!", "I dislike cat!"]
instruction = "What is the animal mentioned here?"
embeddings = inbedder.encode(texts, instruction, 3)

cosine_similarity(embeddings[:1], embeddings[1:], dim=1)
# tensor([0.9374, 0.9917], grad_fn=<SumBackward1>)

texts = ["I love cat!", "I love dog!", "I dislike cat!"]
instruction = "What is emotion expressed here?"
embeddings = inbedder.encode(texts, instruction, 3)

cosine_similarity(embeddings[:1], embeddings[1:], dim=1)
# tensor([0.9859, 0.8537], grad_fn=<SumBackward1>)