Phind-CodeLlama-34B-Python-v1开源代码大模型 - 性能超GPT-4，免费助力代码编写

首页

Phind CodeLlama 34B Python V1

由 Phind 开发

基于CodeLlama-34B-Python微调的大语言模型，在HumanEval上pass@1达69.5%，超越GPT-4表现

大型语言模型

Transformers

#代码生成优化 #HumanEval高分 #Python专用

下载量 878

发布时间 : 8/25/2023

模型简介

专为代码生成优化的34B参数大模型，通过8万高质量编程问题微调，支持Python等编程语言

模型特点

HumanEval领先性能

在标准代码生成基准测试中达到69.5% pass@1，超过GPT-4的67%表现

专业代码微调

使用8万个高质量编程问题解决方案进行指令微调，优化代码生成能力

高效训练技术

采用DeepSpeed ZeRO 3和Flash Attention 2技术，32台A100-80GB仅需3小时完成训练

模型能力

代码生成

编程问题解答

算法实现

数据结构实现

使用案例

开发辅助

自动化代码生成

根据自然语言描述生成可运行代码

在HumanEval基准测试中正确率69.5%

编程教育

生成教学用代码示例和练习题解答

🚀 Phind-CodeLlama-34B-Python-v1

我们在内部的Phind数据集上对CodeLlama-34B和CodeLlama-34B-Python进行了微调，它们在HumanEval上的pass@1分别达到了67.6%和69.5%，而GPT-4的pass@1为67%。我们对数据集应用了OpenAI的去污染方法，以确保结果的有效性。更多详细信息可查看我们的博客文章。

✨ 主要特性

基于CodeLlama-34B-Python微调，在HumanEval上的pass@1达到69.5%。
使用约80k个高质量编程问题及解决方案的专有数据集进行微调。
训练未使用LoRA，采用原生微调方式。
运用DeepSpeed ZeRO 3和Flash Attention 2技术，在32块A100 - 80GB GPU上3小时完成训练。

📦 安装指南

确保从主git分支安装Transformers：

pip install git+https://github.com/huggingface/transformers.git

💻 使用示例

基础用法

本模型经过一定的指令微调，但未进行对话微调。请勿使用Llama对话标记，只需告知模型你想要的内容，并在任务末尾添加"\n: "。

Write me a linked list implementation: \n

高级用法

重现HumanEval结果：

from transformers import AutoTokenizer, LlamaForCausalLM
from human_eval.data import write_jsonl, read_problems
from tqdm import tqdm

# initialize the model

model_path = "Phind/Phind-CodeLlama-34B-v1"
model = LlamaForCausalLM.from_pretrained(model_path, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_path)

# HumanEval helper

def generate_one_completion(prompt: str):
    tokenizer.pad_token = tokenizer.eos_token
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=4096)

    # Generate
    generate_ids = model.generate(inputs.input_ids.to("cuda"), max_new_tokens=256, do_sample=True, top_p=0.75, top_k=40, temperature=0.1)
    completion = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
    completion = completion.replace(prompt, "").split("\n\n\n")[0]

    return completion

# perform HumanEval
problems = read_problems()

num_samples_per_task = 1
samples = [
    dict(task_id=task_id, completion=generate_one_completion(problems[task_id]["prompt"]))
    for task_id in tqdm(problems)
    for _ in range(num_samples_per_task)
]
write_jsonl("samples.jsonl", samples)

# run `evaluate_functional_correctness samples.jsonl` in your HumanEval code sandbox

📚 详细文档

模型详情

此模型基于CodeLlama-34B-Python微调，在HumanEval上的pass@1达到69.5%。

数据集详情

我们在约80k个高质量编程问题及解决方案的专有数据集上进行微调。该数据集由指令 - 答案对组成，而非代码补全示例，因此在结构上与HumanEval不同。Phind模型训练了2个周期，总共展示了约160k个示例。未使用LoRA，两个模型均采用原生微调方式。我们使用DeepSpeed ZeRO 3和Flash Attention 2技术，在32块A100 - 80GB GPU上3小时完成训练，序列长度为4096个标记。