Starcoder2-15B开源代码生成模型 - 基于600多种语言训练，支持大窗口编码

首页

Starcoder2 15b

由 bigcode 开发

StarCoder2-15B是一个150亿参数的代码生成模型，基于600多种编程语言训练，支持16K上下文窗口和滑动窗口注意力机制。

大型语言模型

Transformers

其他开源协议:Openrail #多编程语言代码生成 #16K长上下文窗口 #4万亿标记训练

下载量 8,837

发布时间 : 2/20/2024

模型简介

StarCoder2-15B是基于The Stack v2数据集训练的代码生成模型，支持多种编程语言的代码补全和生成任务。

模型特点

多语言代码支持

支持600多种编程语言的代码生成和理解

长上下文处理

拥有16,384标记的上下文窗口和4,096标记的滑动窗口注意力机制

高效训练

在超过4万亿标记上使用填空目标进行训练

高性能硬件支持

使用NVIDIA H100 GPU和NeMo框架训练

模型能力

代码自动补全

函数生成

代码理解

多语言代码转换

使用案例

软件开发

代码补全

在IDE中提供智能代码补全建议

提高开发效率

函数生成

根据函数签名自动生成实现代码

快速原型开发

教育

编程学习

生成示例代码帮助学习新编程语言

辅助教学

🚀 StarCoder2

StarCoder2-15B是一个拥有150亿参数的模型，在600多种编程语言上进行训练。它采用了先进的技术，如分组查询注意力、大上下文窗口等，能够根据给定的上下文生成代码片段。

🚀 快速开始

安装依赖

首先，确保从源代码安装transformers：

pip install git+https://github.com/huggingface/transformers.git

运行模型

在CPU/GPU/多GPU上运行模型

使用全精度

# pip install git+https://github.com/huggingface/transformers.git # TODO: merge PR to main
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigcode/starcoder2-15b"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
# for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

使用torch.bfloat16

# pip install accelerate
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

checkpoint = "bigcode/starcoder2-15b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# for fp16 use `torch_dtype=torch.float16` instead
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

>>> print(f"Memory footprint: {model.get_memory_footprint() / 1e6:.2f} MB")
Memory footprint: 32251.33 MB

通过`bitsandbytes`使用量化版本

使用8位精度（int8）

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

# to use 4bit use `load_in_4bit=True` instead
quantization_config = BitsAndBytesConfig(load_in_8bit=True)

checkpoint = "bigcode/starcoder2-15b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, quantization_config=quantization_config)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

>>> print(f"Memory footprint: {model.get_memory_footprint() / 1e6:.2f} MB")
# load_in_8bit
Memory footprint: 16900.18 MB
# load_in_4bit
>>> print(f"Memory footprint: {model.get_memory_footprint() / 1e6:.2f} MB")
Memory footprint: 9224.60 MB

✨ 主要特性

多语言支持：在600多种编程语言上进行训练，能够处理多种语言的代码生成任务。
先进技术：采用分组查询注意力、大上下文窗口和滑动窗口注意力等技术，提高模型性能。
填充式中间目标：使用填充式中间目标进行训练，增强模型的代码生成能力。

📚 详细文档

模型概述

StarCoder2-15B模型是一个拥有150亿参数的模型，在来自The Stack v2的600多种编程语言上进行训练，排除了选择退出请求的数据。该模型使用了分组查询注意力、16384个标记的上下文窗口和4096个标记的滑动窗口注意力，并在4万亿多个标记上使用填充式中间目标进行训练。

预期用途

该模型在GitHub代码以及其他选定的数据源（如Arxiv和Wikipedia）上进行训练。因此，它不是一个指令模型，像“编写一个计算平方根的函数”这样的命令效果不佳。

归属与其他要求

该模型的预训练数据集仅过滤了许可宽松的代码和无许可的代码。然而，模型可以逐字生成数据集中的源代码。代码的许可证可能要求归属和/或其他特定要求，必须予以遵守。我们提供了一个搜索索引，可用于搜索预训练数据，以确定生成的代码来自何处，并对代码进行适当的归属。

局限性

该模型在600多种编程语言的源代码上进行训练。源代码中主要语言是英语，尽管也存在其他语言。因此，该模型能够根据一些上下文生成代码片段，但生成的代码不能保证按预期工作。它可能效率低下、包含错误或漏洞。有关模型局限性的深入讨论，请参阅论文。

训练

模型

架构：具有分组查询和滑动窗口注意力以及填充式中间目标的Transformer解码器
预训练步骤：100万步
预训练标记：4万亿多个
精度：bfloat16

硬件

GPU：1024个H100

软件

框架：NeMo框架
神经网络：PyTorch

📄 许可证

该模型遵循BigCode OpenRAIL-M v1许可协议。您可以在此处找到完整的协议。

📚 引用

@misc{lozhkov2024starcoder,
      title={StarCoder 2 and The Stack v2: The Next Generation}, 
      author={Anton Lozhkov and Raymond Li and Loubna Ben Allal and Federico Cassano and Joel Lamy-Poirier and Nouamane Tazi and Ao Tang and Dmytro Pykhtar and Jiawei Liu and Yuxiang Wei and Tianyang Liu and Max Tian and Denis Kocetkov and Arthur Zucker and Younes Belkada and Zijian Wang and Qian Liu and Dmitry Abulkhanov and Indraneil Paul and Zhuang Li and Wen-Ding Li and Megan Risdal and Jia Li and Jian Zhu and Terry Yue Zhuo and Evgenii Zheltonozhskii and Nii Osae Osae Dade and Wenhao Yu and Lucas Krauß and Naman Jain and Yixuan Su and Xuanli He and Manan Dey and Edoardo Abati and Yekun Chai and Niklas Muennighoff and Xiangru Tang and Muhtasham Oblokulov and Christopher Akiki and Marc Marone and Chenghao Mou and Mayank Mishra and Alex Gu and Binyuan Hui and Tri Dao and Armel Zebaze and Olivier Dehaene and Nicolas Patry and Canwen Xu and Julian McAuley and Han Hu and Torsten Scholak and Sebastien Paquet and Jennifer Robinson and Carolyn Jane Anderson and Nicolas Chapados and Mostofa Patwary and Nima Tajbakhsh and Yacine Jernite and Carlos Muñoz Ferrandis and Lingming Zhang and Sean Hughes and Thomas Wolf and Arjun Guha and Leandro von Werra and Harm de Vries},
      year={2024},
      eprint={2402.19173},
      archivePrefix={arXiv},
      primaryClass={cs.SE}
}

信息表格

属性	详情
模型类型	具有分组查询和滑动窗口注意力以及填充式中间目标的Transformer解码器
训练数据	来自The Stack v2的600多种编程语言的代码，排除选择退出请求的数据
预训练步骤	100万步
预训练标记	4万亿多个
精度	bfloat16
GPU	1024个H100
框架	NeMo框架
神经网络	PyTorch
许可证	BigCode OpenRAIL-M v1许可协议