SFR-Embedding-Code-2B_R通用嵌入模型 - 开源助力多语言多任务代码文本检索

首页

SFR Embedding Code 2B R

由 Salesforce 开发

Salesforce研究院开发的通用型嵌入模型，适用于多语言和多任务的代码与文本检索，在多项代码检索任务中表现卓越。

文本嵌入

Transformers

其他#代码检索 #多语言支持 #20亿参数

下载量 6,977

发布时间 : 1/17/2025

模型简介

SFR-嵌入代码是一个通用型嵌入模型系列，适用于多语言和多任务的代码与文本检索。在多项代码检索任务中，该模型展现出优于各类开源代码嵌入模型的卓越性能。

模型特点

多语言支持

适用于多语言和多任务的代码与文本检索。

高性能检索

在多项代码检索任务中表现优于其他开源代码嵌入模型。

大参数规模

20亿参数规模，提供更强的表示能力。

模型能力

代码检索

文本检索

多语言处理

使用案例

代码检索

代码片段检索

根据自然语言查询检索相关代码片段。

在CoIR基准测试中NDCG@10达到67.4

文本检索

技术文档检索

根据技术问题检索相关文档或解决方案。

🚀 Salesforce/SFR-Embedding-Code-2B_R

SFR-Embedding 由 Salesforce Research 研发。

Salesforce/SFR-Embedding-Code 是一个通用的嵌入模型家族，用于多语言和多任务的代码与文本检索。在多个代码检索任务中，与各种开源代码嵌入模型相比，它表现出了卓越的性能。

查看我们的论文以了解更多详情！

我们还提供 400M 规模的模型 Salesforce/SFR-Embedding-Code-400_R

🚀 快速开始

运行示例

本项目提供了使用 Transformers 和 Sentence Transformers 库运行模型的示例代码，你可以参考以下代码进行尝试。

✨ 主要特性

多语言多任务支持：适用于多语言和多任务的代码与文本检索。
性能卓越：在多个代码检索任务中，相比各种开源代码嵌入模型表现更优。

📚 详细文档

伦理考量

本版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导，请参考我们的 AUP 和 AI AUP。

许可证声明

用户需要自行评估与原始数据集和数据对应的许可证或条款和条件下的任何义务或责任。本版本仅用于支持学术论文的研究目的。

此发布的模型是 Gemma 的微调版本，Gemma 是根据 ai.google.dev/gemma/terms 中的 Gemma 使用条款提供并受其约束。此外，此模型的使用受到 ai.google.dev/gemma/prohibited_use_policy（“禁止使用政策”）中规定的限制，该政策特此通过引用并入本协议。

CoIR 基准测试性能

模型	模型大小	CoIR AVG (NDCG@10)
SFR-Embedding-Code	2B	67.4
CodeSage-Large-v2	1.3B	64.2
CodeSage-Large	1.3B	61.0
SFR-Embedding-Code	400M	61.9
CodeRankEmbed	137M	60.1
CodeSage-Base	356M	57.5
Voyage-Code-002	-	56.3
CodeSage-Small	130M	54.4

团队成员

SFR-Embedding 团队（† 表示联合负责人）

Ye Liu
Rui Meng
Shafiq Rayhan Joty
Silvio Savarese
Caiming Xiong †
Yingbo Zhou †
Semih Yavuz †

💻 使用示例

基础用法

Transformers

import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
    "how to implement quick sort in Python?"
]

# No instruction needed for retrieval passages
passages = [
    "def quick_sort(arr):\n    if len(arr) <= 1:\n        return arr\n    pivot = arr[len(arr) // 2]\n    left = [x for x in arr if x < pivot]\n    middle = [x for x in arr if x == pivot]\n    right = [x for x in arr if x > pivot]\n    return quick_sort(left) + middle + quick_sort(right)",
    "def bubble_sort(arr):\n    n = len(arr)\n    for i in range(n):\n        for j in range(0, n-i-1):\n            if arr[j] > arr[j+1]:\n                arr[j], arr[j+1] = arr[j+1], arr[j]\n    return arr"
]

# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
# [[69.26929473876953, 58.41606903076172]]

Sentence Transformers

from sentence_transformers import SentenceTransformer

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Instruct: Given Code or Text, retrieval relevant content\nQuery: "
queries = ["how to implement quick sort in Python?"]

# No instruction needed for retrieval passages
passages = [
    "def quick_sort(arr):\n    if len(arr) <= 1:\n        return arr\n    pivot = arr[len(arr) // 2]\n    left = [x for x in arr if x < pivot]\n    middle = [x for x in arr if x == pivot]\n    right = [x for x in arr if x > pivot]\n    return quick_sort(left) + middle + quick_sort(right)",
    "def bubble_sort(arr):\n    n = len(arr)\n    for i in range(n):\n        for j in range(0, n-i-1):\n            if arr[j] > arr[j+1]:\n                arr[j], arr[j+1] = arr[j+1], arr[j]\n    return arr"
]

# Load the Sentence Transformer model, including pooling
model = SentenceTransformer('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# Compute the embeddings for both queries and passages. Use 'prompt' for queries only
query_embeddings = model.encode(queries, prompt=query_instruction_example)
passage_embeddings = model.encode(passages)

# Compute the similarities between the queries and passages
similarities = model.similarity(query_embeddings, passage_embeddings)
print(similarities)
# tensor([[0.6927, 0.5842]])

引用

@article{liu2024codexembed,
  title={CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval},
  author={Liu, Ye and Meng, Rui and Jot, Shafiq and Savarese, Silvio and Xiong, Caiming and Zhou, Yingbo and Yavuz, Semih},
  journal={arXiv preprint arXiv:2411.12644},
  year={2024}
}

📄 许可证

本项目采用 CC BY-NC 4.0 许可证。用户需要自行评估与原始数据集和数据对应的许可证或条款和条件下的任何义务或责任。此发布的模型是 Gemma 的微调版本，Gemma 是根据 ai.google.dev/gemma/terms 中的 Gemma 使用条款提供并受其约束。此外，此模型的使用受到 ai.google.dev/gemma/prohibited_use_policy（“禁止使用政策”）中规定的限制。