m2-bert-80M-32k-retrieval开源模型 - 支持长序列长上下文检索任务

首页

M2 Bert 80M 32k Retrieval

由 togethercomputer 开发

这是一个80M参数的M2-BERT预训练模型，支持长达32768的序列长度，专为长上下文检索任务优化

文本嵌入

Transformers

英语开源协议:Apache-2.0 #长文本检索 #32768超长序列 #轻量级80M参数

下载量 1,274

发布时间 : 11/4/2023

模型简介

基于Monarch Mixer架构的BERT变体模型，针对长文本检索任务进行了微调，能够生成高质量的文本嵌入向量

模型特点

超长上下文处理

支持长达32768个token的序列长度，适合处理长文档检索任务

高效架构

采用Monarch Mixer次二次方架构，在保持性能的同时提高计算效率

检索优化

专门针对检索任务进行微调，生成768维的高质量文本嵌入

模型能力

长文本相似度计算

语义检索

文本嵌入生成

使用案例

信息检索

长文档检索

从大量长文档中快速找到相关内容

能够有效处理长达32k token的文档

语义搜索

基于语义而非关键词的文档搜索

生成高质量的语义嵌入向量

🚀 Monarch Mixer-BERT

Monarch Mixer-BERT 是 M2-BERT 的一个 8000 万参数的检查点，它在序列长度为 32768 的情况下进行了预训练，并针对长上下文检索进行了微调。

查看论文 Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture 和我们关于检索的博客文章，以了解更多关于我们如何为长序列训练此模型的信息。

该模型由 Jon Saad - Falcon、Dan Fu 和 Simran Arora 训练。

查看我们的 GitHub，获取有关如何下载和微调该模型的说明！

🚀 快速开始

模型加载

你可以使用 Hugging Face 的 AutoModel 加载此模型：

from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained(
  "togethercomputer/m2-bert-80M-32k-retrieval",
  trust_remote_code=True
)

你可能会看到一条关于 FlashFFTConv 未使用参数的大错误消息。如果你想使用 FlashFFTConv 加载模型，可以查看我们的 GitHub。

生成嵌入

此模型用于生成用于检索的嵌入向量，嵌入向量的维度为 768：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

max_seq_length = 32768
testing_string = "Every morning, I make a cup of coffee to start my day."
model = AutoModelForSequenceClassification.from_pretrained(
  "togethercomputer/m2-bert-80M-32k-retrieval",
  trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(
  "bert-base-uncased",
  model_max_length=max_seq_length
)
input_ids = tokenizer(
  [testing_string],
  return_tensors="pt",
  padding="max_length",
  return_token_type_ids=False,
  truncation=True,
  max_length=max_seq_length
)

outputs = model(**input_ids)
embeddings = outputs['sentence_embedding']

使用 Together API 获取嵌入

你还可以使用 Together API 从此模型获取嵌入向量（你可以在这里找到你的 API 密钥）：

import os
import requests

def generate_together_embeddings(text: str, model_api_string: str, api_key: str):
    url = "https://api.together.xyz/api/v1/embeddings"
    headers = {
        "accept": "application/json",
        "content-type": "application/json",
        "Authorization": f"Bearer {api_key}"
    }
    session = requests.Session()
    response = session.post(
        url,
        headers=headers,
        json={
            "input": text,
            "model": model_api_string
        }
    )
    if response.status_code != 200:
        raise ValueError(f"Request failed with status code {response.status_code}: {response.text}")
    return response.json()['data'][0]['embedding']

print(generate_together_embeddings(
  'Hello world',
  'togethercomputer/m2-bert-80M-32k-retrieval',
  os.environ['TOGETHER_API_KEY'])[:10]
)

💻 使用示例

基础用法

from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained(
  "togethercomputer/m2-bert-80M-32k-retrieval",
  trust_remote_code=True
)

高级用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification

max_seq_length = 32768
testing_string = "Every morning, I make a cup of coffee to start my day."
model = AutoModelForSequenceClassification.from_pretrained(
  "togethercomputer/m2-bert-80M-32k-retrieval",
  trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(
  "bert-base-uncased",
  model_max_length=max_seq_length
)
input_ids = tokenizer(
  [testing_string],
  return_tensors="pt",
  padding="max_length",
  return_token_type_ids=False,
  truncation=True,
  max_length=max_seq_length
)

outputs = model(**input_ids)
embeddings = outputs['sentence_embedding']

📄 许可证

本模型使用 Apache 2.0 许可证。

致谢

Alycia Lee 协助提供了 AutoModel 支持。

引用

如果你使用了此模型，或者认为我们的工作有价值，可以按以下方式引用我们：

@inproceedings{fu2023monarch,
  title={Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture},
  author={Fu, Daniel Y and Arora, Simran and Grogan, Jessica and Johnson, Isys and Eyuboglu, Sabri and Thomas, Armin W and Spector, Benjamin and Poli, Michael and Rudra, Atri and R{\'e}, Christopher},
  booktitle={Advances in Neural Information Processing Systems},
  year={2023}
}