CodeGemma-1.1-7b-it开源代码模型 - 免费部署实现代码生成与对话任务

首页

Codegemma 1.1 7b It

由 google 开发

CodeGemma是基于Gemma构建的轻量级开源代码模型系列，专精代码生成与对话任务。

大型语言模型

Transformers

#代码智能补全 #多语言代码生成 #IDE集成优化

下载量 209

发布时间 : 4/30/2024

模型简介

CodeGemma 7B 指令调优版是一个70亿参数的代码模型，用于代码对话、指令跟随和自然语言生成代码任务。

模型特点

代码补全与生成

支持代码补全、中间填充和自然语言生成代码

指令调优

经过指令调优，能够更好地理解和执行编程相关的指令

多语言支持

支持多种编程语言的代码生成和理解

负责任AI设计

遵循谷歌AI原则，经过安全过滤和伦理评估

模型能力

代码补全

自然语言生成代码

代码对话

指令跟随

使用案例

代码开发

代码生成

根据自然语言描述生成代码片段

生成符合描述的Python函数

代码补全

在IDE中自动补全代码

提高开发效率

编程教育

交互式学习

帮助学生理解编程概念

提供即时反馈和解释

语法纠正

识别并修正代码中的语法错误

提高代码质量

🚀 CodeGemma

CodeGemma是基于Gemma构建的轻量级开源代码模型集合，提供了不同参数规模的变体，可用于代码补全、代码生成、代码对话等多种编程相关任务，为开发者提供了强大的代码辅助能力。

模型链接

模型页面：CodeGemma
资源与技术文档：
- 技术报告
- 负责任的生成式AI工具包
使用条款：条款
作者：Google

✨ 主要特性

CodeGemma模型具有以下特点：

多任务支持：支持代码补全、自然语言到代码的生成、代码对话和指令跟随等多种任务。
多种参数变体：提供20亿和70亿参数的预训练变体，以及70亿参数的指令调优变体，满足不同场景的需求。
高性能表现：在多个编码和自然语言基准测试中表现出色。

特性	codegemma - 2b	codegemma - 7b	codegemma - 7b - it
代码补全	✅	✅
自然语言生成代码		✅	✅
代码对话			✅
指令跟随			✅

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

代码生成

from transformers import GemmaTokenizer, AutoModelForCausalLM

tokenizer = GemmaTokenizer.from_pretrained("google/codegemma-1.1-7b-it")
model = AutoModelForCausalLM.from_pretrained("google/codegemma-1.1-7b-it")

input_text = "Write me a Python function to calculate the nth fibonacci number."
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

聊天模板

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model_id = "google/codegemma-1.1-7b-it"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype=dtype,
)

chat = [
    { "role": "user", "content": "Write a hello world program" },
]

prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

高级用法

inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)

📚 详细文档

输入输出

输入：
- 预训练模型变体：代码补全和生成场景的代码前缀和/或后缀，或自然语言文本或提示。
- 指令调优模型变体：自然语言文本或提示。
输出：
- 预训练模型变体：中间填充代码补全、代码和自然语言。
- 指令调优模型变体：代码和自然语言。

模型数据

训练数据集

以Gemma为基础模型，CodeGemma 2B和7B预训练变体在额外的5000 - 10000亿个主要为英语的令牌数据上进行进一步训练，这些数据来自公开可用的代码库、开源数学数据集和合成生成的代码。

训练数据处理

采用了以下数据预处理技术：

FIM预训练：CodeGemma模型专注于中间填充（FIM）任务，支持PSM和SPM模式，FIM率为80% - 90%，PSM/SPM比例为50 - 50。
依赖图和单元测试打包：为了提高模型与实际应用的对齐性，在项目/代码库级别构建训练示例，采用依赖图打包和单元测试词法打包技术。
文档拆分：开发了一种将文档拆分为前缀、中间和后缀的新技术，使后缀从更符合语法的自然点开始。
安全过滤：与Gemma类似，部署了严格的安全过滤，包括过滤个人数据、CSAM过滤和其他基于内容质量和安全的过滤。

实现信息

硬件

CodeGemma使用最新一代的张量处理单元（TPU）硬件（TPUv5e）进行训练。

软件

使用JAX和ML Pathways进行训练。

评估信息

评估方法

在多个领域的各种学术基准上对CodeGemma进行评估：

代码补全基准：HumanEval单行和多行填充。
代码生成基准：HumanEval、MBPP、BabelCode（C++、C#、Go、Java、JavaScript、Kotlin、Python、Rust）。
问答：BoolQ、PIQA、TriviaQA。
自然语言：ARC - Challenge、HellaSwag、MMLU、WinoGrande。
数学推理：GSM8K、MATH。

评估结果

编码基准

基准测试	2B	2B (1.1)	7B	7B - IT	7B - IT (1.1)
HumanEval	31.1	37.8	44.5	56.1	60.4
MBPP	43.6	49.2	56.2	54.2	55.6
HumanEval Single Line	78.4	79.3	76.1	68.3	77.4
HumanEval Multi Line	51.4	51.0	58.4	20.1	23.7
BC HE C++	24.2	19.9	32.9	42.2	46.6
BC HE C#	10.6	26.1	22.4	26.7	54.7
BC HE Go	20.5	18.0	21.7	28.6	34.2
BC HE Java	29.2	29.8	41.0	48.4	50.3
BC HE JavaScript	21.7	28.0	39.8	46.0	48.4
BC HE Kotlin	28.0	32.3	39.8	51.6	47.8
BC HE Python	21.7	36.6	42.2	48.4	54.0
BC HE Rust	26.7	24.2	34.1	36.0	37.3
BC MBPP C++	47.1	38.9	53.8	56.7	63.5
BC MBPP C#	28.7	45.3	32.5	41.2	62.0
BC MBPP Go	45.6	38.9	43.3	46.2	53.2
BC MBPP Java	41.8	49.7	50.3	57.3	62.9
BC MBPP JavaScript	45.3	45.0	58.2	61.4	61.4
BC MBPP Kotlin	46.8	49.7	54.7	59.9	62.6
BC MBPP Python	38.6	52.9	59.1	62.0	60.2
BC MBPP Rust	45.3	47.4	52.9	53.5	52.3