m2-bert-80M-8k-retrieval开源模型 - 长上下文检索任务微调，精准高效！

首页

M2 Bert 80M 8k Retrieval

由 togethercomputer 开发

这是一个8000万参数的M2-BERT预训练检查点，序列长度达8192，并针对长上下文检索任务进行了微调。

文本嵌入

Transformers

英语开源协议:Apache-2.0 #长文本检索 #8192序列长度 #次二次复杂度

下载量 198

发布时间 : 11/4/2023

模型简介

Monarch Mixer-BERT模型是一个基于GEMM的次二次复杂度简易架构，专为长上下文检索任务设计。

模型特点

长序列处理

支持长达8192的序列长度，适合处理长上下文检索任务。

高效架构

基于GEMM的次二次复杂度简易架构，计算效率高。

预训练与微调

经过预训练并针对检索任务进行了微调，生成768维的检索嵌入向量。

模型能力

句子相似度计算

长文本检索

生成嵌入向量

使用案例

信息检索

文档检索

用于从大量文档中检索相关文档。

问答系统

用于问答系统中检索相关答案。

🚀 Monarch Mixer-BERT

Monarch Mixer-BERT 是 M2-BERT 的一个 8000 万参数的检查点，使用序列长度 8192 进行预训练，并针对长上下文检索进行了微调。它能够有效处理长序列数据，在长上下文检索任务中表现出色。

查看论文 Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture 和我们关于检索的博客文章，了解更多关于我们如何针对长序列训练此模型的信息。

该模型由 Jon Saad-Falcon、Dan Fu 和 Simran Arora 训练。

查看我们的 GitHub 获取有关如何下载和微调该模型的说明！

🚀 快速开始

你可以按照下面的步骤使用 Monarch Mixer-BERT 模型。

💻 使用示例

基础用法

你可以使用 Hugging Face 的 AutoModel 加载此模型：

from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained(
  "togethercomputer/m2-bert-80M-8k-retrieval",
  trust_remote_code=True
)

你可能会看到一条关于 FlashFFTConv 未使用参数的大错误消息。如果你想使用 FlashFFTConv 加载模型，可以查看我们的 GitHub。

高级用法

此模型为检索生成嵌入向量，嵌入向量的维度为 768：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

max_seq_length = 8192
testing_string = "Every morning, I make a cup of coffee to start my day."
model = AutoModelForSequenceClassification.from_pretrained(
  "togethercomputer/m2-bert-80M-8k-retrieval",
  trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(
  "bert-base-uncased",
  model_max_length=max_seq_length
)
input_ids = tokenizer(
  [testing_string],
  return_tensors="pt",
  padding="max_length",
  return_token_type_ids=False,
  truncation=True,
  max_length=max_seq_length
)

outputs = model(**input_ids)
embeddings = outputs['sentence_embedding']

你还可以使用 Together API 从该模型获取嵌入向量，如下所示（你可以在这里找到你的 API 密钥）：

import os
import requests

def generate_together_embeddings(text: str, model_api_string: str, api_key: str):
    url = "https://api.together.xyz/api/v1/embeddings"
    headers = {
        "accept": "application/json",
        "content-type": "application/json",
        "Authorization": f"Bearer {api_key}"
    }
    session = requests.Session()
    response = session.post(
        url,
        headers=headers,
        json={
            "input": text,
            "model": model_api_string
        }
    )
    if response.status_code != 200:
        raise ValueError(f"Request failed with status code {response.status_code}: {response.text}")
    return response.json()['data'][0]['embedding']

print(generate_together_embeddings(
  'Hello world',
  'togethercomputer/m2-bert-80M-8k-retrieval',
  os.environ['TOGETHER_API_KEY'])[:10]
)

🙏 致谢

Alycia Lee 帮助实现了 AutoModel 支持。

📚 引用

如果你使用了此模型，或者认为我们的工作有价值，可以按如下方式引用我们：

@inproceedings{fu2023monarch,
  title={Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture},
  author={Fu, Daniel Y and Arora, Simran and Grogan, Jessica and Johnson, Isys and Eyuboglu, Sabri and Thomas, Armin W and Spector, Benjamin and Poli, Michael and Rudra, Atri and R{\'e}, Christopher},
  booktitle={Advances in Neural Information Processing Systems},
  year={2023}
}