st-codesearch-distilroberta-base开源模型 - 高效完成代码搜索任务，轻松映射文本与代码

首页

St Codesearch Distilroberta Base

由 codecompletedeployment 开发

这是一个基于DistilRoBERTa的句子转换器模型，专门用于代码搜索任务，可将文本和代码片段映射到768维向量空间。

文本嵌入

PyTorch

#代码语义搜索 #程序代码向量化 #DistilRoBERTa优化

下载量 16

发布时间 : 9/15/2023

模型简介

该模型是一个句子转换器模型，经过训练可将句子和段落映射到768维的密集向量空间，主要用于代码搜索任务，能够根据文本描述匹配相关程序代码。

模型特点

代码搜索优化

专门针对代码搜索任务训练，能够有效匹配自然语言查询与程序代码

高效向量表示

将文本和代码转换为768维密集向量，便于相似度计算和检索

基于DistilRoBERTa

使用轻量级但性能优异的DistilRoBERTa模型作为基础架构

模型能力

句子嵌入

语义相似度计算

代码搜索

特征提取

使用案例

代码检索

根据描述查找函数

根据自然语言描述查找匹配的程序函数

能够返回与查询语义最接近的代码片段

代码库搜索

在大规模代码库中搜索相关代码片段

通过向量相似度快速定位相关代码

开发工具

IDE插件

集成到开发环境中提供代码搜索功能

提升开发者查找代码的效率

🚀 flax-sentence-embeddings/st-codesearch-distilroberta-base

这是一个 sentence-transformers 模型，它可以将句子和段落映射到一个 768 维的密集向量空间，可用于聚类或语义搜索等任务。该模型在 code_search_net 数据集上进行训练，可根据文本搜索程序代码。

✨ 主要特性

基于 sentence-transformers 框架，可将文本映射到 768 维向量空间。
在 code_search_net 数据集上训练，适用于代码搜索任务。

📦 安装指南

若要使用此模型，需安装 sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer, util


#This list the defines the different programm codes
code = ["""def sort_list(x):
   return sorted(x)""",
"""def count_above_threshold(elements, threshold=0):
    counter = 0
    for e in elements:
        if e > threshold:
            counter += 1
    return counter""",
"""def find_min_max(elements):
    min_ele = 99999
    max_ele = -99999
    for e in elements:
        if e < min_ele:
            min_ele = e
        if e > max_ele:
            max_ele = e
    return min_ele, max_ele"""]
    

model = SentenceTransformer("flax-sentence-embeddings/st-codesearch-distilroberta-base")

# Encode our code into the vector space
code_emb = model.encode(code, convert_to_tensor=True)

# Interactive demo: Enter queries, and the method returns the best function from the 
# 3 functions we defined
while True:
    query = input("Query: ")
    query_emb = model.encode(query, convert_to_tensor=True)
    hits = util.semantic_search(query_emb, code_emb)[0]
    top_hit = hits[0]

    print("Cossim: {:.2f}".format(top_hit['score']))
    print(code[top_hit['corpus_id']])
    print("\n\n")

高级用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('flax-sentence-embeddings/st-codesearch-distilroberta-base')
embeddings = model.encode(sentences)
print(embeddings)

🔧 技术细节

训练信息

该模型使用 DistilRoBERTa-base 模型在 codesearch 数据集上进行了 10k 个训练步骤的训练，批次大小为 256，使用 MultipleNegativesRankingLoss 损失函数。这是一个初步模型，尚未经过测试，训练也不够精细。

训练参数

DataLoader

MultiDatasetDataLoader.MultiDatasetDataLoader，长度为 5371，参数如下：

{'batch_size': 256}

Loss

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，参数如下：

{'scale': 20, 'similarity_fct': 'dot_score'}

fit() 方法参数

{
    "callback": null,
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "warmupconstant",
    "steps_per_epoch": 10000,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)