CodeNinja-1.0-OpenChat-7B开源代码助手 - 基于大规模编码数据增强编程实用价值

首页

Codeninja 1.0 OpenChat 7B

由 beowolx 开发

代码忍者是知名模型openchat/openchat-3.5-1210的增强版本，通过在两个包含超过40万条编码指令的大规模数据集上进行监督微调训练而成。

大型语言模型

Transformers

开源协议:MIT #多语言代码生成 #长上下文支持 #编程助手

下载量 2,998

发布时间 : 12/20/2023

模型简介

作为程序员不可或缺的工具，代码忍者旨在无缝融入你的日常编码工作流，提供智能代码补全和编程辅助功能。

模型特点

海量训练数据

基于glaive-code-assistant-v2和code_instructions_122k_alpaca_style数据集优化，涵盖多种编程语言的约40万条编码指令。

灵活可扩展

提供7B参数规模的模型，适配本地运行环境。

智能代码补全

8192 tokens的超长上下文窗口，支持项目级代码补全。

模型能力

代码生成

代码补全

编程问题解答

多语言代码支持

使用案例

软件开发

日常编程辅助

帮助开发者快速生成代码片段，提高开发效率

减少重复性编码工作

项目级代码补全

利用长上下文窗口优势，理解项目上下文进行智能补全

提升代码一致性

🚀 CodeNinja：你的高级编码助手

CodeNinja是一款强大的编码辅助工具，它基于知名模型进行优化，经过大规模数据集微调，能无缝融入日常编码流程，为开发者提供高效的代码完成和支持。

🚀 快速开始

使用LM Studio

与CodeNinja交互的最简单方法是通过 LM Studio 上的量化版本。确保选择 “OpenChat” 预设，其中包含必要的提示格式。该预设也可在这个 gist 中找到。

使用Transformers库

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# Initialize the model
model_path = "beowolx/CodeNinja-1.0-OpenChat-7B"
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")
# Load the OpenChat tokenizer
tokenizer = AutoTokenizer.from_pretrained("openchat/openchat-3.5-1210", use_fast=True)

def generate_one_completion(prompt: str):
    messages = [
        {"role": "user", "content": prompt},
        {"role": "assistant", "content": ""}  # Model response placeholder
    ]

    # Generate token IDs using the chat template
    input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

    # Produce completion
    generate_ids = model.generate(
        torch.tensor([input_ids]).to("cuda"),
        max_length=256,
        pad_token_id=tokenizer.pad_token_id,
        eos_token_id=tokenizer.eos_token_id
    )

    # Process the completion
    completion = tokenizer.decode(generate_ids[0], skip_special_tokens=True)
    completion = completion.split("\n\n\n")[0].strip()

    return completion

✨ 主要特性

庞大的训练数据库：CodeNinja使用来自 glaiveai/glaive-code-assistant-v2 和 TokenBender/code_instructions_122k_alpaca_style 的数据集进行优化，包含约400,000条涵盖多种语言（如Python、C、C++、Rust、Java、JavaScript等）的编码指令。
灵活性和可扩展性：CodeNinja提供7B模型大小，适用于本地运行时环境。
高级代码完成：拥有8192的大上下文窗口大小，支持全面的项目级代码完成。

📚 详细文档

概述

CodeNinja是著名模型 openchat/openchat-3.5-1210 的增强版本。它通过监督微调在两个庞大的数据集上进行了微调，包含超过400,000条编码指令。CodeNinja旨在成为编码人员不可或缺的工具，无缝集成到你的日常编码流程中。

量化版本请访问：beowolx/CodeNinja-1.0-OpenChat-7B-GGUF。

提示格式

CodeNinja保持与OpenChat 3.5相同的提示结构。有效使用需要遵循此格式：

GPT4 Correct User: Hello<|end_of_turn|>GPT4 Correct Assistant: Hi<|end_of_turn|>GPT4 Correct User: How are you today?<|end_of_turn|>GPT4 Correct Assistant: