VirtualCompiler开源模型 - 免费将任意编程语言编译为底层汇编代码

首页

Virtualcompiler

由 elsagranger 开发

一个基于340亿参数CodeLlama构建的大型语言模型，能够将任意编程语言编译为底层汇编代码

大型语言模型

Transformers

开源协议:Apache-2.0 #汇编代码生成 #大型语言模型 #代码搜索增强

下载量 17

发布时间 : 5/25/2024

模型简介

虚拟编译器是一种能够模拟真实编译器行为的大型语言模型，专注于将高级编程语言转换为底层汇编代码，并通过汇编代码搜索任务验证其有效性

模型特点

虚拟编译能力

能够模拟真实编译器行为，将高级语言代码转换为等效的汇编代码

大规模参数

基于340亿参数的CodeLlama模型构建，具备强大的代码理解能力

汇编代码搜索

生成的虚拟汇编代码可用于高效的代码搜索任务

模型能力

编程语言编译

汇编代码生成

代码语义理解

汇编代码搜索

使用案例

逆向工程

二进制代码分析

通过生成的汇编代码辅助分析二进制程序

提高逆向工程效率

代码安全

漏洞检测

通过汇编代码模式识别潜在安全漏洞

增强代码安全性分析能力

🚀 虚拟编译器：汇编代码搜索的理想之选

本项目为ACL 2024论文 “Virtual Compiler Is All You Need For Assembly Code Search” 提供了模型和相应的评估数据集。虚拟编译器是一种大语言模型（LLM），它能够将任何编程语言编译为底层的汇编代码。该虚拟编译器模型基于34B CodeLlama，可在 elsagranger/VirtualCompiler 获取。

🚀 快速开始

本项目包含模型和评估数据集，下面为你介绍使用方法。

✨ 主要特性

虚拟编译器模型：基于34B CodeLlama的大语言模型，可将任意编程语言编译为汇编代码。
多方面评估：通过脚本强制执行评估虚拟汇编代码与真实汇编代码的相似度，还通过汇编代码搜索这一下游任务评估虚拟编译器的有效性。

📦 安装指南

我们使用FastChat和vllm worker来托管模型。请在不同的终端（如 tmux）中运行以下命令：

LOGDIR="" python3 -m fastchat.serve.openai_api_server \
    --host 0.0.0.0 --port 8080 \
    --controller-address http://localhost:21000

LOGDIR="" python3 -m fastchat.serve.controller \
    --host 0.0.0.0 --port 21000

LOGDIR="" RAY_LOG_TO_STDERR=1 \
    python3 -m fastchat.serve.vllm_worker \
    --model-path ./VirtualCompiler \
    --num-gpus 8 \
    --controller http://localhost:21000 \
    --max-num-batched-tokens 40960 \
    --disable-log-requests \
    --host 0.0.0.0 --port 22000 \
    --worker-address http://localhost:22000 \
    --model-names "VirtualCompiler"

💻 使用示例

基础用法

模型托管完成后，使用 do_request.py 向模型发送请求：

~/C/VirtualCompiler (main)> python3 do_request.py
test rdx, rdx
setz al
movzx eax, al
neg eax
retn

汇编代码搜索编码器使用示例

由于Hugging Face不支持在文件夹中加载远程模型，我们将在虚拟编译器增强的汇编代码搜索数据集上训练的模型托管在 vic-encoder。你可以使用 model.py 测试自定义模型加载。

以下是文本编码器和汇编编码器的使用示例。关于如何从二进制文件中提取汇编代码，请参考 process_asm.py：

def calc_map_at_k(logits, pos_cnt, ks=[10,]):
    _, indices = torch.sort(logits, dim=1, descending=True)

    # [batch_size, pos_cnt]
    ranks = torch.nonzero(
        indices < pos_cnt,
        as_tuple=False
    )[:, 1].reshape(logits.shape[0], -1)

    # [batch_size, pos_cnt]
    mrr = torch.mean(1 / (ranks + 1), dim=1)

    res = {}

    for k in ks:
        res[k] = (
            torch.sum((ranks < k).float(), dim=1) / min(k, pos_cnt)
        ).cpu().numpy()

    return ranks.cpu().numpy(), res, mrr.cpu().numpy()

pos_asm_cnt = 1

query = ["List all files in a directory"]

# Extracted by the process_asm.py script mentioned above
anchor_asm = [ {"1": "endbr64", "2": "mov eax, 0" }, ... ]
neg_anchor_asm = [ {"1": "push rbp", "2": "mov rbp, rsp", ... }, ... ]

query_embs = text_encoder(**text_tokenizer(query))

kwargs = dict(padding=True, pad_to_multiple_of=8, return_tensors="pt")
anchor_asm_ids = asm_tokenizer.pad([asm_tokenizer(pos) for pos in anchor_asm], **kwargs)
neg_anchor_asm_ids = asm_tokenizer.pad([asm_tokenizer(neg) for neg in neg_anchor_asm], **kwargs)

asm_embs = asm_encoder(**anchor_asm_ids)
asm_neg_emb = asm_encoder(**neg_anchor_asm_ids)

# query_embs: [query_cnt, emb_dim]
# asm_embs: [pos_asm_cnt, emb_dim]

# logits_pos: [query_cnt, pos_asm_cnt]
logits_pos = torch.einsum(
    "ic,jc->ij", [query_embs, asm_embs])
# logits_neg: [query_cnt, neg_asm_cnt]
logits_neg = torch.einsum(
    "ic,jc->ij", [query_embs, asm_neg_emb[pos_asm_cnt:]]
)
logits = torch.cat([logits_pos, logits_neg], dim=1)

ranks, map_at_k, mrr = calc_map_at_k(
    logits, pos_asm_cnt, [1, 5, 10, 20, 50, 100])

📚 详细文档

相似度评估：使用脚本 force-exec.py 强制执行，评估虚拟编译器生成的虚拟汇编代码与真实汇编代码的相似度。相应的评估数据集可在 virtual_assembly_and_ground_truth 获取。
有效性评估：通过汇编代码搜索这一下游任务评估虚拟编译器的有效性。评估数据集可在 elsagranger/AssemblyCodeSearchEval 获取。