CodeGemma-2B开源代码模型-免费部署助力代码补全与生成任务

首页

Codegemma 2b

由 google 开发

CodeGemma是基于Gemma构建的轻量级开源代码模型，专注于代码补全和生成任务。

大型语言模型

Transformers

#代码填充中间 #多语言代码生成 #IDE智能补全

下载量 4,685

发布时间 : 3/21/2024

模型简介

CodeGemma是一系列基于Gemma的轻量级开源代码模型，包括2B和7B参数的预训练变体，专注于代码补全和代码生成任务。

模型特点

填充中间（FIM）训练

模型通过填充中间目标训练，能够处理PSM和SPM模式，适用于代码编辑器中的补全任务。

多语言代码支持

支持多种编程语言的代码补全和生成，包括Python、C++、Java等。

高效推理

20亿参数的轻量级设计，适合快速代码补全任务。

模型能力

代码补全

代码生成

自然语言处理

使用案例

开发工具

IDE代码补全

在集成开发环境中提供智能代码补全功能。

提高开发效率，减少编码错误

教育

编程学习辅助

帮助学习者理解代码结构和语法。

提升学习效率

🚀 CodeGemma

CodeGemma是基于Gemma构建的轻量级开放代码模型集合，提供多种参数变体，可用于代码补全、代码生成、代码对话和代码教育等场景，在多个领域的学术基准测试中表现出色。

🚀 快速开始

要在Hugging Face上使用CodeGemma，你需要审查并同意Google的使用许可。请确保你已登录Hugging Face，然后点击下方按钮。请求将立即处理。

确认许可

✨ 主要特性

多任务支持：支持代码补全、从自然语言生成代码、代码对话和指令跟随等多种任务。
多参数变体：提供70亿参数预训练变体、70亿参数指令微调变体和20亿参数预训练变体，满足不同需求。
高性能表现：在多个编码和自然语言基准测试中取得了优异的成绩。
严格安全过滤：采用了严格的安全过滤机制，确保模型输出符合安全和质量要求。

📚 详细文档

模型信息

描述

CodeGemma是基于Gemma构建的轻量级开放代码模型集合。CodeGemma模型是仅解码器的文本到文本和文本到代码模型，有70亿参数的预训练变体（专注于代码补全和代码生成任务）、70亿参数的指令微调变体（用于代码对话和指令跟随）和20亿参数的预训练变体（用于快速代码补全）。

功能	codegemma-2b	codegemma-7b	codegemma-7b-it
代码补全	✅	✅
从自然语言生成代码		✅	✅
代码对话			✅
指令跟随			✅

输入和输出

输入：
- 预训练模型变体：代码补全和生成场景的代码前缀和/或后缀，或自然语言文本或提示。
- 指令微调模型变体：自然语言文本或提示。
输出：
- 预训练模型变体：中间填充代码补全、代码和自然语言。
- 指令微调模型变体：代码和自然语言。

模型数据

训练数据集

以Gemma为基础模型，CodeGemma 2B和7B预训练变体在额外的5000亿个主要为英语的令牌上进行了进一步训练，这些数据来自公开可用的代码仓库、开源数学数据集和合成生成的代码。

训练数据处理

采用了以下数据预处理技术：

FIM预训练：CodeGemma模型专注于中间填充（FIM）任务，支持PSM和SPM模式，FIM率为80%，PSM/SPM比例为50-50。
基于依赖图和单元测试的打包技术：为了提高模型与实际应用的对齐度，在项目/仓库级别构建训练示例，采用了基于依赖图的打包和基于单元测试的词法打包技术。
文档拆分技术：开发了一种将文档拆分为前缀、中间和后缀的新技术，使后缀的起始位置在语法上更加自然。
安全过滤：与Gemma类似，采用了严格的安全过滤机制，包括过滤个人数据、CSAM过滤和其他基于内容质量和安全的过滤。

实现信息

硬件

CodeGemma使用最新一代的张量处理单元（TPU）硬件（TPUv5e）进行训练。

软件

使用JAX和ML Pathways进行训练。

评估信息

评估方法

在多个领域的各种学术基准测试中对CodeGemma进行评估：

代码补全基准：HumanEval单行和多行填充。
代码生成基准：HumanEval、MBPP、BabelCode（C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust）。
问答：BoolQ、PIQA、TriviaQA。
自然语言：ARC-Challenge、HellaSwag、MMLU、WinoGrande。
数学推理：GSM8K、MATH。

评估结果

编码基准

基准测试	2B	7B	7B-IT
HumanEval	31.1	44.5	56.1
MBPP	43.6	56.2	54.2
HumanEval单行	78.41	76.09	68.25
HumanEval多行	51.44	58.44	20.05
BC HE C++	24.2	32.9	42.2
BC HE C#	10.6	22.4	26.7
BC HE Go	20.5	21.7	28.6
BC HE Java	29.2	41.0	48.4
BC HE JavaScript	21.7	39.8	46.0
BC HE Kotlin	28.0	39.8	51.6
BC HE Python	21.7	42.2	48.4
BC HE Rust	26.7	34.1	36.0
BC MBPP C++	47.1	53.8	56.7
BC MBPP C#	28.7	32.5	41.2
BC MBPP Go	45.6	43.3	46.2
BC MBPP Java	41.8	50.3	57.3
BC MBPP JavaScript	45.3	58.2	61.4
BC MBPP Kotlin	46.8	54.7	59.9
BC MBPP Python	38.6	59.1	62.0
BC MBPP Rust	45.3	52.9	53.5

自然语言基准

CodeGemma自然语言基准测试

伦理与安全

评估方法

评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同团队进行，每个团队有不同的目标和人工评估指标。这些模型在多个与伦理和安全相关的类别中进行了评估，包括：

人工评估：对涵盖内容安全和代表性危害的提示进行人工评估。有关评估方法的更多详细信息，请参阅Gemma模型卡片。
特定测试：对网络攻击能力进行特定测试，重点测试自主黑客能力并确保潜在危害得到限制。

评估结果

伦理和安全评估结果在符合内部政策的可接受阈值内，包括儿童安全、内容安全、代表性危害、记忆和大规模危害等类别。有关更多详细信息，请参阅Gemma模型卡片。

模型使用与限制

预期用途

Code Gemma模型有广泛的应用，不同的IT和PT模型有不同的用途。以下是可能的用途列表，但不全面。此列表的目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

代码补全：PT模型可用于通过IDE扩展完成代码。
代码生成：IT模型可用于在有或没有IDE扩展的情况下生成代码。
代码对话：IT模型可驱动讨论代码的对话界面。
代码教育：IT模型支持交互式代码学习体验，有助于语法纠正或提供编码练习。

已知限制

大语言模型（LLM）基于其训练数据和技术的固有局限性存在限制。有关LLM限制的更多详细信息，请参阅Gemma模型卡片。

伦理考虑与风险

大语言模型（LLM）的开发引发了一些伦理问题。在这些模型的开发过程中，我们仔细考虑了多个方面。有关模型详细信息，请参阅Gemma模型卡片中的相同讨论。

优势

在发布时，与类似规模的模型相比，这个模型家族提供了高性能的、专注于开放代码的大语言模型实现，从一开始就为负责任的AI开发而设计。使用本文档中描述的编码基准评估指标，这些模型在性能上优于其他类似规模的开放模型替代品。

💻 使用示例

基础用法

代码补全

from transformers import GemmaTokenizer, AutoModelForCausalLM

model_id = "google/codegemma-2b"
tokenizer = GemmaTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

prompt = '''\
<|fim_prefix|>import datetime
def calculate_age(birth_year):
    """Calculates a person's age based on their birth year."""
    current_year = datetime.date.today().year
    <|fim_suffix|>
    return age<|fim_middle|>\
'''

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
prompt_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0][prompt_len:]))

代码生成

from transformers import GemmaTokenizer, AutoModelForCausalLM

tokenizer = GemmaTokenizer.from_pretrained("google/codegemma-2b")
model = AutoModelForCausalLM.from_pretrained("google/codegemma-2b")

input_text = "Write me a Python function to calculate the nth fibonacci number."
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

高级用法

代码补全（带终止符）

FIM_PREFIX = '<|fim_prefix|>'
FIM_SUFFIX = '<|fim_suffix|>'
FIM_MIDDLE = '<|fim_middle|>'
FIM_FILE_SEPARATOR = '<|file_separator|>'

terminators = tokenizer.convert_tokens_to_ids([FIM_PREFIX, FIM_MIDDLE, FIM_SUFFIX, FIM_FILE_SEPARATOR])
terminators += [tokenizer.eos_token_id]

outputs = model.generate(
  **inputs,
  max_new_tokens=100,
  eos_token_id=terminators,
)